我工作在生物信息学,我们存储了大量非常大的文件,从来没有改变 – 植物基因组,基因组读取等。我们不断收到这种types的新数据,我们的备份大小爆炸。
在我看来,一直备份这些大文件是没有意义的,三五次就足够了。 有没有像“有状态”的备份存储什么文件已经“安全”(已经在5磁带左右,使用也许文件哈希),然后只备份其余的?
我search了一下,什么都没发现。
谢谢!
正常情况下,这可以通过增量备份(自上次备份以来备份所有文件)或差异备份(自上次完全备份以来的所有文件)来解决。 Gnu Tar手册(5.2节和5.3节)简要讨论了这些types的备份。 但是,这并不能解决您想要每个文件的最小数量的副本的问题。
另一种select是,如果你想在每个备份上获得系统的确切快照,但仍然节省空间是使用rsync快照备份(做一个谷歌searchrsync快照,有几个实现这一点的文章和工具)。 基本上这使用rsync来复制到远程系统(或外部驱动器),并使用硬链接对每个备份之间不改变的文件,以节省空间。 要获得多个副本,您可以将您的备份驱动器rsync同步到另一个备份驱动器。
但是,如果你想要这一切都发生在磁带上,我唯一知道的是在Tivoli商业备份工具。 您可能会考虑Bacula,我认为它也支持保留最less数量的副本,但是我还没有使用那个副本。
一些即将可用的东西,是我一直在做的一个备份工具。 在将代码放到github上之前,我需要把更多的文档放在一起,然后清理代码,但是基本上它会执行快照式增量备份 – 永久备份,通过MD5哈希跟踪文件,以及存储什么快照系统看起来像每个备份。 此外,作为副作用,在将多个主机备份到单个备份服务器时,还会执行文件级别的重复数据删除。 如果你有兴趣,我会稍后回来,并更新这个post,一旦我有这个工具的初始版本上传(假设这是不是在这里推销自己的项目政策 – 如果是这样,我的道歉)。
增量备份的一些变体可以为此工作。 或者,您可以定期放置包含静态数据的存档磁带,以减less日常备份负载。
根据您获取的date存储您导入的文件。 将它们硬链接到您需要使用的布局中。备份最近5-7天的目录。
将数据存储在不同的地方,并有不同的备份策略。 我曾经为一家大公司工作过,甚至在那里,那就是PB数据的设置。
就像是:
/master几乎是不可变的文件。 一些用户通常会把大file upload到那里。 这是每月一次, /data所有其他文件的/data 。 有链接到/master文件。 这是每天晚上备份。