configuration.htaccess来阻止僵尸索引,但允许浏览器目录列表/查看

我知道为了通过.htaccess显示我的文件在浏览器中的目录列表,我可以使用

 Options +Indexes 

并阻止Google和大多数漫游器爬取我可以使用的目录

 Options -Indexes 

是否有可能仍然允许通过浏览器可见的目录列表,但防止僵尸爬行/索引完全与.htaccess

您的.htaccess文件不能神奇地将“真实”用户与“机器人”用户区分开来。 由于从networking服务器的angular度来看,没有任何区别。

但是,一般来说,漫游器会尊重robots.txt的内容,而Web浏览器不会。

或者,如果您有某种确定什么是机器人而什么不是的方式,则可以将该规则应用到.htaccessconfiguration中。 一个常见的策略是应用一组基于报告的User-Agent头进行过滤的RewriteRules。 例如,包含单词“googlebot”的用户代理可能由Google运行。

User-Agents.org有一个stream行的用户代理标识符列表。 但请记住,这个标头的内容是由运行机器人/浏览器的人设置的,并且可以包含任何她想要的东西。 因此,例如,恶意用户通常会复制一个stream行的浏览器或者一个stream行的search引擎的User-Agentstring。 所以你不能依靠这个。