我们有一些相当大的数据集(用户事件和服务器日志信息 – > 100 GB),这对数据处理来说变得相当不便。 我已经看到很多关于NoSQL / Hadoop /等的活动,我想知道SV对配对解决scheme有什么看法。 绝对理想的情况是:
思考? 我们已经尝试了许多关于MySQL的解决scheme,没有一个能够很好地满足这些要求。
MongoDB很简单,现在有自动分片。 磁盘使用效率不高,所以您需要给它大量的磁盘空间。 它可以处理查询,但它需要索引,除非你想要扫描数十亿条logging。 我们所做的是在Mongo中实际存储摘要,因为如果你知道你的查询,你可以build立一个优化的数据结构,并且是非常有效的。
你有没有试过MySQL的Infobright? 它自动压缩并且是FAST。 这对你来说可能够用了。
你需要自己编写一些适配器!