网站爬虫/蜘蛛把结果扔进mysql

有人build议我们使用mysql来进行我们网站的search,因为它会在托pipe我们的networking服务器(nginx)和我们的数据库(mysql)的服务器上运行。

由于不是我们所有的页面都是从数据库创build的,所以有人build议我们有一个抓取工具,可以抓取网站,把页面url和数据扔到mysql里面,并且有一个sphinx索引。

有没有人知道一个开源的蜘蛛,它有一个开箱即用的mysql存储选项。

谢谢。

我认为sphider就是你正在寻找的东西 – 我们以前的结果还不错。 另外它可以索引PDF和文档,这是非常有用的

http://www.sphider.eu/