我应该禁止蜘蛛吗?

我一直在看的rails模板脚本会自动添加User-Agent:Dissalow:robots.txt中,从而禁止站点中的所有蜘蛛

什么是禁止蜘蛛的好处,你为什么要?

在开发过程中,您可能不希望search引擎将您的网站编入索引。

一般来说,你会想要禁止你的网站的特定部分的蜘蛛或你不想出现在search结果中的页面,或者为search引擎提供任何东西 – 比如反馈表单,脚本目录,图像目录等。

有时候,蜘蛛可能以很高的速度击中你的网站,所以阻止某些爬虫可以帮助服务器加载,如果他们打慢页。

你也想禁止它,如果你删除页面或目录,所以它不会吐出你的服务器日志中的404。

请记住,robots.txt是自愿的,并不是很可靠。 好的机器人确实符合robots.txt,所以这是控制search引擎内容的好方法。

有一种误解,认为将内容放入您的robots.txt会增加您的安全性或防止机器人抓取效果不佳的网页。 但是,一些不好的机器人会忽略robots.txt。 如果robots.txt被意外删除一周,机器人可能会扫描您的网站,并将结果发布到Google / Yahoo / Bing,您可能永远无法清除它。 一些恶意软件程序会专门在robots.txt文件中查找多汁的目标,并专门针对那些被禁止的项目。