亚马逊,Facebook和谷歌必须每天接受结核病(如果不是PB),那么这意味着他们有人会不断地在新的机架上安装新的硬盘和电缆,就像build立一个普通的服务器一样,或者是有不同的技术连接驱动器集体吗?
我不知道他们中的任何一个实际上是一次安装一台服务器的硬件。 早在2008年, MS开始构build数据中心,通过将服务器的密封和预接线集装箱交付给服务器,他们只需从卡车卸载并将电源/networking连接插入即可。 虽然08版本是最近数据中心的集装箱和传统的混合物,但是他们已经去了一个防风雨的定制预制devise,并且不需要安置在单独的build筑物内。
惠普和IBM都销售类似的软件包,预装容器中装满了只需要部署电源/数据连接的服务器。

谷歌有几种技术,他们在内部开发来存储这些庞大的数据。 使用这些技术,他们实际上可以将卡车的硬盘加载到集群中,而不会造成任何停机,但是,他们确实需要这样做。
据我所知,谷歌博客的两个主要部分是谷歌文件系统,这是一个分布式文件系统,可以扩大到真正的规模: 谷歌文件系统
在Google文件系统之上,他们拥有大表格(Big Table),这是一种关键值数据库,也可以扩展成大型表格 : 大表格
为了保证高可用性,在大多数情况下一切冗余多次,超过3次。
这是正确的。 我记得有一次,Facebook的数据中心平均每天都增加三台装满硬盘和机架式服务器的拖车。 当然,他们有复杂的scheme来使存储扩展和冗余。 例如,Google就有GFS 。 Facebook拥有三个数据中心,仅用于他们的设备,每个大于两个沃尔玛,一个新的数据中心规模比现有中心大四倍。
新一代的Open Compute存储解决scheme能够以4个机架单位容纳180TB的磁盘,PB的占用空间并不是很大:每天增加1PB意味着每天需要支付5台这样的服务器,这不是一个大问题。 更好的是,这些可以有大约一万美元,这意味着你支付每TB不到60美元。
所以是的,这项技术可以让我们所有人都这样做,而且价格不会打破银行。
但是你必须记住,大公司总是得到一个更好的交易,签署大合同来获得大量的存储。 他们可能会在一年中分发小批量的货物,但并不像他们一次只订购1PB。
这里有一篇来自BackBlaze的博客文章,他们是如何做到这一点的(他们可能不需要像Google或Facebook那样多的磁盘,但仍然是一个完整的磁盘),泰国发生洪灾时需要做的事情是制作硬盘昂贵和难以得到:
http://blog.backblaze.com/2012/10/09/backblaze_drive_farming/