构buildIntranetsearch

在工作中,我们在很多不同的网站上都有许多信息 – 维基,产品文档,票务系统等 – 其中许多信息需要validation。

我非常感兴趣的是有一种方法来search我们所有的孤岛,在业余时间看看Nutch,Grub,Django + Haystack等。这些都不是Google Mini或Google Search Appliance的完整解决scheme。

有没有人从这些工具的混合物中build立一个基本的内联网search引擎? 你会有关于如何去做的build议吗? 我喜欢Django,Haystack似乎是一个非常stream行的search解决scheme,但是我需要连接一个可以支持爬取authentication站点的爬虫。

Vivisimo的速度是一个伟大的产品,但昂贵。

看看Apache基金会的Lucene 。 另外看看他们的PoweredBy wiki页面,也许你甚至find一个已经使用lucene的项目。