Server 2012重复数据删除function的技术细节

既然Windows Server 2012带有NTFS卷的重复数据删除function,我很难find有关它的技术细节。 我可以从TechNet文档中推断,重复数据删除操作本身是一个asynchronous进程 – 与SIS Groveler的工作方式没有什么不同 – 但实际上没有关于实现的详细信息(使用的algorithm,所需的资源,甚至性能方面的信息考虑只是一堆经验法则式的build议)。

我们非常感谢洞察力和指针,与Solaris的ZFS重复数据删除效率相比,一系列的情况将是非常好的。

    正如我所怀疑的那样,它基于VSS子系统( 源代码 ),这也解释了它的asynchronous性。 重复数据块存储在\System Volume Information\Dedup\ChunkStore\* ,并在\System Volume Information\Dedup\Settings\* 。 这对您的备份软件与这些卷交互的方式有着重大的影响,这在链接文章中进行了解释(简而言之:无重复数据删除支持,您的备份将与以往一样大小,只需备份重复数据删除支持更小的重复数据删除存储)。

    至于使用的方法,我能find的最好的是一篇微软研究人员在2011年的Usenix FAST11大会上发表的研究论文( 来源 , 全文 )。 主存储中的第3.3节进入重复数据删除 。 这些数据似乎可能用于开发NTFS重复数据删除function。 这个引用被使用了:

    用于可变大小内容定义块的规范algorithm是Rabin Fingerprints [25]。

    本文中有大量的数据需要筛选,但是他们使用的工具集的复杂性与我们已知的特性相结合已经在2012年,这强烈地表明,本文的推理是用来开发这些特性的。 如果没有msdn文章,我们无法确定,但是这与我们目前可能得到的结果一样。

    与ZFS的性能比较将不得不等待Benchmark完成。