如何正確設(shè)置robots.txt文件

更新時間：2019-04-30 作者：百搜科技

一、什么是robots.txt文件

Robots是網(wǎng)站與spider溝通的重要渠道，也可以說是網(wǎng)站和搜索引擎的一個協(xié)議，站點(diǎn)通過robots文件告訴spider本網(wǎng)站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。

從搜索引擎優(yōu)化的角度來看，可以通過屏蔽頁面，達(dá)到集中權(quán)重的作用，這也是SEO中robots.txt文件的重要性。
如何正確設(shè)置robots.txt文件(圖1)

二、網(wǎng)站為什么設(shè)置robots.txt文件

1、設(shè)置訪問權(quán)限保護(hù)網(wǎng)站安全，例如限制訪問后臺數(shù)據(jù)文件

2、禁止搜索引擎爬取無效頁面，集中權(quán)值到主要頁面。例如：聯(lián)系我們，聲明，關(guān)于我們

三、如何正確設(shè)置robots.txt文件

User-agent：用于描述搜索引擎robot的名字。在“robots.txt”文件中，如果有多條User-agent記錄說明有多個robot會受到“robots.txt”的限制。

對該文件來說，至少要有一條User-agent記錄。如果該項(xiàng)的值設(shè)為*，則對任何robot均有效，在“robots.txt”文件中，“User-agent：*”這樣的記錄只能有一條。

如果在“robots.txt”文件中，加入“User-agent：SomeBot”和若干Disallow、Allow行，那么名為“SomeBot”只受到“User-agent：SomeBot”后面的Disallow和Allow行的限制。

Disallow：該項(xiàng)的值用于描述不希望被訪問的一組URL，這個值可以是一條完整的路徑，也可以是路徑的非空前綴，以Disallow項(xiàng)的值開頭的URL不會被robot訪問。

例如“Disallow：/help”禁止robot訪問/help.html、/helpabc.html、/help/index.html，而“Disallow：/help/”則允許robot訪問/help.html、/helpabc.html，不能訪問/help/index.html。

在“/robots.txt”文件中，至少要有一條Disallow記錄。如果“/robots.txt”不存在或者為空文件，則對于所有的搜索引擎robot，該網(wǎng)站都是開放的。

Allow：用于描述希望被訪問的一組URL，與Disallow項(xiàng)相似，這個值可以是一條完整的路徑，也可以是路徑的前綴，以Allow項(xiàng)的值開頭的URL是允許robot訪問的。

例如“Allow：/hibaidu”允許robot訪問/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個網(wǎng)站的所有URL默認(rèn)是Allow的，所以Allow通常與Disallow搭配使用，實(shí)現(xiàn)允許訪問一部分網(wǎng)頁同時禁止訪問其它所有URL的功能。