什么是“重复数据删除”？

我的意思是，我可以查找字典的定义，但为什么每个人都突然谈论虚拟磁带库呢？这里有什么新东西，最近有这么多新闻呢？

重复数据删除是查看数据集内容的地方，logging所有存在的重复位，并将数据存储一次，用指针将所有那些数据副本replace为一个副本。这对于备份尤其有帮助，因为当您备份服务器之类的数据时，大部分数据都是相同的。想象一下，例如，你正在备份1000台Windows服务器 – 这些盒子上的大部分内容都是相同的。

重复数据删除如今非常stream行，原因有三：

最近，每个人都在着手构build利用异地服务器的灾难恢复解决scheme。要做到这一点，你必须复制大量的生产数据到远程站点和带宽是一个巨大的问题。任何数据量的减less都需要复制。
数据公司正在保留的数量正在迅速增长 – 这归功于更便宜的存储和保留logging的多行业要求。
这项技术相对于最近的甜蜜点。我们已经有很长时间的重复数据删除（单实例存储等），但是只有在过去一年左右，我们才看到真正的重复数据删除，可以显着减less主stream的存储量。

我们在与Netapp合作时发现的一件事情是，如果您的驱动器alignment，重复数据删除技术在虚拟机环境中确实只能运行良好。对于我们来说，这是一个问题，因为我们有很多Windows Server 2003计算机，并且没有一个驱动器是alignment的。这意味着如果驱动器正确alignment，则只能在四分之一的空间内恢复。

我们被告知，一旦驱动器正确alignment，我们应该能够通过重复数据删除40-60％的空间。