百度seo公司教您用robts.txt 文件控制搜索引擎蜘蛛？

为了您网站能够让用户搜索到，于是百度有搜索引擎爬虫，同时也称为搜索机器人(bots)或是搜索蜘蛛(spiders)，会爬取你的网站，搜索有变动的内容并且重新更新搜索引擎的搜索检索。下面百度seo公司简单的为大家介绍下robots.txt 文件的作用！

如何用robts.txt 这个文件去控制搜索引擎蜘蛛

SEO站长们可以使用robots.txt这个文件，来指导搜索引擎蜘蛛应该如何爬取这个网站，当搜索引擎蜘蛛爬取网站时，会先读取robots文件，并且依照规则爬取网站。

※ robots.txt规则虽然是重要的，但是搜索机器人不一定会遵守robot.txt规则，它只是一个执行方针。

※以Google而言，要设定Crawl-delay，是必须在Google管理工具里设定。

※对于浮滥爬取你的网站的劣质搜索蜘蛛，应该研究如何凭借.htaccess里的User-agent去阻挡不好的搜索蜘蛛。

编辑与创建robots.txt 文件

Robots.txt 文件是必须放在网站根目录里，如果你的网址是www.jiaren8.com 是可以读取到的。

网址位置：

https://www.jiaren8.com/robots.txt

同时可以根据不同的后台内容cms管理系统来创建该文件

如果没有这个文件的话，你可以使用txt文本来创建一个新的robots.txt文件，创建好了可以上传到网站地根目录即可。

搜索引擎蜘蛛是会以robots.txt文件规则来抓取网站

robots.txt 文件有许多的规则，可以控制搜索蜘蛛如何爬取你得网站。

User-agent：可以具体指定哪一个User-agent是适用的，如*是万用搭配于全部的User-agent。

Disallow:设定档案或是资料夹，不允许被搜索蜘蛛爬取。

设定全部搜索引擎延迟爬取

如果你的网站有1000页，搜索蜘蛛可能在几分钟内检索全部的网站，然而这有可能导致系统资源使用过度，在短时间内让全部的网页超过负荷，导致网页无法浏览。

延迟30秒的时间，将允许搜索蜘蛛在8.3小时内检索1000张网页。

延迟500秒的时间，将允许搜索蜘蛛在5.8天内检索1000张网页。

你也可以设定Crawl-delay：所有的搜索蜘蛛立即搜索。

User-agent: *

Crawl-delay: 30

关于robot.txt 文件的写法

允许搜索蜘蛛爬取全部网站

在预设空白情况下，搜索引擎蜘蛛还是会爬取你的网站，不过你还是可以指定它是允许的。

User-agent: *

Disallow:

不允许搜索蜘蛛爬取全部网站

User-agent: *

Disallow: /

不允许搜索蜘蛛爬取特定一个网站

你可以运用这些规则，不允许特定的搜索引擎蜘蛛爬取你的网站。

User-agent: Baiduspider

Disallow: /

不允许全部搜索蜘蛛爬取特定的文件

如果有些目录如wp-login.php, index.php, 或是后台地址wp-admin我们不想要搜索蜘蛛爬取，我可以使用：

User-agent: *

Disallow: /wp-login.php

Disallow: /index.php

Disallow: /wp-admin/

除了指定的以外，不允许全部搜索蜘蛛爬取

如果我们只想让Googlebot爬取我们的/gybz/目录，但是不允许其他搜索蜘蛛爬取，我们可以这样使用：

User-agent: *

Disallow: /

User-agent: Googlebot

Disallow: /gybz/

当Googlebot读取我的robots.txt文件时，会去理解文件内容，不会禁止全部目录的爬取。

如果想只想要一网页部被抓取检索请参考()

百度seo公司教您用robts.txt 文件控制搜索引擎蜘蛛？

如何用robts.txt 这个文件去控制搜索引擎蜘蛛

编辑与创建robots.txt 文件

搜索引擎蜘蛛是会以robots.txt文件规则来抓取网站

设定全部搜索引擎延迟爬取

关于robot.txt 文件的写法

允许搜索蜘蛛爬取全部网站

不允许搜索蜘蛛爬取全部网站

不允许搜索蜘蛛爬取特定一个网站

不允许全部搜索蜘蛛爬取特定的文件

除了指定的以外，不允许全部搜索蜘蛛爬取

相关推荐