Articles of Hadoop的

使用MySQL来pipe理20 TB数据是否可行?

我正在一个项目中工作,我的工作是build立一个数据库系统来pipe理大约600亿个数据条目。 项目背景是我必须对大量每秒从大约30,000个RFID阅读器读取的消息进行实时存储。 假设每个RFID阅读器每天产生6000条消息,我必须将180,000,000条条目插入到数据库中。 一个可能的数据input就像“time_stamp,Reader_ID,Tag_ID,other_msg_content” 将根据时间范围,Reader_ID和Tag_ID进行查询(SELECT)。 查询不会很复杂。 现在我正在devise数据库系统,并计划使用MySQL。 我的转储问题是: 使用MySQL是明智的,还是应该使用Oracle(昂贵)或HBase? 如果我必须使用MySQL,任何想法如何build立群集? 如果我把消息插入一个表格,表格很快就会变长。 我想使用Sharding技术将长表拆分为许多短表。 3.A. 我想知道一个MySQL InnoDB表的正确长度,也就是说,在插入了多less条数据之后,我将开始分片? 3.B. 那里有没有好的分片代理解决scheme? 我知道spock代理和其他一些,需要build议。 我必须使用MySQL群集吗? 或者我只使用mysql主服务器和分片从服务器,并使用复制来实现高可用性? 假设我必须在MySQL中处理20TB数据(一年),我打算使用20个节点(PC服务器,便宜),并且每个节点存储1TB的数据,这有可能吗? 任何意见都欢迎。 非常感谢。

HP Smart Array 410 / i磁盘控制器上的Hadoop JBOD磁盘configuration

我正处于一些可以用来build立hadoop集群的评估阶段。 这hw翻新(hp G6服务器w / Smart Array 410 / i控制器),可能我们应该/必须使用它…我们还没有它。 我读过410 / i控制器不允许按照hadoop的要求configurationJBOD,有没有人可以证实这个说法? 或不 ? 似乎解决方法可能是在每个磁盘上configurationraid0,再次有人确认或有其他方式的configuration? 谢谢Rob

无法在请求的2181端口启动ZK,而导出HBASE_MANAGES_ZK = false

问题 第一个目标是单独运行HBase。 一旦HBase启动,导航到ip:60010 / master-status会成功。 第二个目标是运行一个独特的ZooKeeper法定人数。 ZooKeeper已经下载并启动了: netstat -nato | grep 2181 tcp 0 0 :::2181 :::* LISTEN off (0.00/0/0) conf/hbase-env.sh被更改如下: # Tell HBase whether it should manage it's own instance of Zookeeper or not. export HBASE_MANAGES_ZK=false 为了避免HBase一旦启动就启动ZooKeeper。 但是,一旦HBase启动,就会发生以下错误。 Could not start ZK at requested port of 2181. ZK was started at port: 2182. Aborting […]

NTP客户端configuration的最佳select

让我们看看是否有人可以在这个问题上抛出一些光 我正在做一个服务器安装在接下来的几天。 我的客户想要部署一台Hortonworks HDP作为主服务器和5台工作服务器。 其中的一个要求就是启用NTP。 但是,这就是我所有的信息,他没有告诉我,如果他想要一个本地服务器作为NTP服务器,或者希望所有7个服务器作为客户端。 操作系统将是Centos 6.6或6.7。 所以我的问题是: 考虑到这不是一个生产环境,而更像是一个“testing”环境,这将是您在这些机器上configurationNTP的select吗? 所有7个客户端,1-2个服务器和5个客户端?

在Hadoop中,如何显示-copyFromLocal的当前进程

我仍然是Hadoop的新手学习者,这次我正在处理一个106GB的文件。 我用-copyFromLocal把这个大文件复制到我的Hadoop DFS,但是由于文件很大,我不得不等待很长时间才知道当前的复制状态。 有没有什么办法用这个命令显示当前的文件复制状态? 提前谢谢你们的帮助!

DIY Hadoop集群 – 热和灰尘问题?

以下是我的DIY 6节点Hadoop集群使用i3机器的链接, 什么是最好的方式来保护我的devise免受灰尘和提供更好的传热? 我应该使用什么来覆盖我的机架的四个侧面以防灰尘?

在Cloudera HBase集群中移动SecondaryName节点

我在同一台机器上部署了辅助名称节点是我的主要名称节点: 由于性能和持久性的原因,这是错误的(辅助名称节点不是热备份,但是它具有所需元数据的副本)。 我find了关于如何移动namenode的文档 ,但没有关于移动辅助namenode的信息。 有经验的人知道如何安全地做到这一点?

什么是Hadoop,它用于什么?

我一直在享受阅读ServerFault一段时间,我已经遇到了很多关于Hadoop的主题。 从全局的angular度来看,我发现了一些问题。 所以我的问题很简单:什么是Hadoop? 它有什么作用 ? 它是干什么用的 ? 为什么踢屁股? 编辑:如果有人有使用Hadoop的使用案例的示范/解释,这将是太棒了。