我使用500 + Gb文档工作在Sharepoint 2007 Intranet上。 运行完整的爬网需要超过48小时。 当我们第一次把Sharepoint设置的比较小的时候,我们每周都运行完整的抓取工作,并且每晚都进行增量。
运行完整抓取有什么好处吗? 还是应该把频率降低到每个月 – 甚至比这个频率更less?
通常情况下,每周甚至定期全面爬行是没有必要的。
根据微软的build议([Article] [1]),在以下情况下(FTA),您只需在初始完整抓取后手动完成全面爬网:
服务器场中的服务器上安装了一个或多个修补程序或服务包。 有关更多信息,请参阅修补程序或Service Pack的说明。
SSPpipe理员添加了一个新的托pipe属性。
在Windows SharePoint Services 3.0或Office SharePoint Server 2007网站上重新索引ASPX页面。
解决连续增量爬网失败。 在极less数情况下,如果增量爬网在存储库中的任何级别连续失败100次,则索引服务器会从索引中删除受影响的内容。
抓取规则已被添加,删除或修改。
修复损坏的索引。
search服务pipe理员已创build一个或多个服务器名称映射。
分配给默认内容访问帐户或爬网规则的帐户已更改。
在以下情况(FTA)中,还会自动执行完整的爬网(请求增量爬网时):
SSPpipe理员停止了以前的爬网。
内容数据库从备份中恢复。
服务器场pipe理员分离并重新连接了内容数据库。
一个完整的网站爬行从来没有完成。
更改日志不包含正在爬网的地址的条目。 如果在正在爬网的项目的更改日志中没有条目,则不会发生增量爬网。
分配给默认内容访问帐户或爬网规则的帐户已更改。
修复损坏的索引。
HTH,丹