配对MySQL和NoSQL解决scheme

我们有一些相当大的数据集(用户事件和服务器日志信息 – > 100 GB),这对数据处理来说变得相当不便。 我已经看到很多关于NoSQL / Hadoop /等的活动,我想知道SV对配对解决scheme有什么看法。 绝对理想的情况是:

  • 一个“主从”就像我们的实时MySQL和NoSQL / Hadoop服务器之间的同步,但是我们可以build立自定义索引/等等。
  • 能够在微不足道的时间在NoSQL / Hadoop上运行标准聚合结果,例如:
    • 总和(*)<1秒其中event_type ='date1'和'date2'之间的'blarg'
    • 给我所有的传入search条件(我们logging)这个页面和这个页面的孩子在一个任意的时间段和他们的计数
  • 一个简单(<10分钟)的方式来更新开发人员的机器。

思考? 我们已经尝试了许多关于MySQL的解决scheme,没有一个能够很好地满足这些要求。

MongoDB很简单,现在有自动分片。 磁盘使用效率不高,所以您需要给它大量的磁盘空间。 它可以处理查询,但它需要索引,除非你想要扫描数十亿条logging。 我们所做的是在Mongo中实际存储摘要,因为如果你知道你的查询,你可以build立一个优化的数据结构,并且是非常有效的。

你有没有试过MySQL的Infobright? 它自动压缩并且是FAST。 这对你来说可能够用了。

你需要自己编写一些适配器!