什么是“重复数据删除”?

我的意思是,我可以查找字典的定义,但为什么每个人都突然谈论虚拟磁带库呢? 这里有什么新东西,最近有这么多新闻呢?

重复数据删除是查看数据集内容的地方,logging所有存在的重复位,并将数据存储一次,用指针将所有那些数据副本replace为一个副本。 这对于备份尤其有帮助,因为当您备份服务器之类的数据时,大部分数据都是相同的。 想象一下,例如,你正在备份1000台Windows服务器 – 这些盒子上的大部分内容都是相同的。

重复数据删除如今非常stream行,原因有三:

  1. 最近,每个人都在着手构build利用异地服务器的灾难恢复解决scheme。 要做到这一点,你必须复制大量的生产数据到远程站点和带宽是一个巨大的问题。 任何数据量的减less都需要复制。

  2. 数据公司正在保留的数量正在迅速增长 – 这归功于更便宜的存储和保留logging的多行业要求。

  3. 这项技术相对于最近的甜蜜点。 我们已经有很长时间的重复数据删除(单实例存储等),但是只有在过去一年左右,我们才看到真正的重复数据删除,可以显着减less主stream的存储量。

我们在与Netapp合作时发现的一件事情是,如果您的驱动器alignment,重复数据删除技术在虚拟机环境中确实只能运行良好。 对于我们来说,这是一个问题,因为我们有很多Windows Server 2003计算机,并且没有一个驱动器是alignment的。 这意味着如果驱动器正确alignment,则只能在四分之一的空间内恢复。

我们被告知,一旦驱动器正确alignment,我们应该能够通过重复数据删除40-60%的空间。