我们运行apache(在windows上)和NGINX(在CentOS上)开发服务器。 我有问题,谷歌一些如何不断掌握发展地址和索引他们(可以从Chrome地址栏?)有没有办法阻止所有stream量从机器人/蜘蛛在服务器级别之前,有在每个网站诉诸个人robots.txt文件,或密码只能访问?
一个相关的问题是在现场环境(CentOS上的NGINX),我们使用静态资产域服务图像和JS等,再次,谷歌已经在其search结果内索引,有没有办法来防止这种情况?
首先,您应该在您的域的根目录中提供一个有效的robots.txt文件。 要求Google和其他合法networking抓取工具不要通过您的网站是常见的方法。
与nginx等非常容易禁止选定的使用者:
if ($http_user_agent ~ (Googlebot|bingbot|whatever) ) { return 403; }
你可以把这个代码放在一个单独的文件中,并将其包含在每个server块中。