video和图像数据的成本效益,长期存档? 〜50TB

我的实验室正在build立一个小型服务器,用于保存我们小组正在处理的项目的数据(主要是video和图像数据,以及一些文档)。 从历史上看,在一个研究项目结束后,这些数据会随意地存储在一个硬盘或一大堆DVD(或者以前的CD)中,或者一些video最终以索尼DV盒式录像机VHS录像带(这个实验室自90年代初以来一直是活跃的),或者是以上所有的混合物…

问题:(1)将它们合并成相同的格式和存储介质的最好方法是什么?(2)对于非常偶然的访问(比如30多年?),长期存档这些数据的最佳媒介是什么? 不幸的是我们没有企业级的预算(我们只是一个10人左右的实验室),所以不能做成本高达数十万美元的事情。

谢谢!

PS考虑到我们以前的video和图像的分辨率较小,但最近的数据量非常大,我想我们正在谈论真正的旧数据30〜40TB,最近的数据又是10〜20TB,然后每年增加大约5TB 。

不幸的是,没有最好的办法给你。 30年的数字媒体档案是一个非常棘手的问题,需要日常投资。 关于保证在30年内可读的唯一格式是ASCII和UTF8,这不是video格式。 存储格式的变化,即使数据仍在录像带上,我们30年前使用的8轨道卷对卷磁带几乎不可能读取(有一个关于NASA重build40岁磁带机的有趣故事以获得一些新的恢复/发现阿波罗数据磁带)。 你最好的select是定期的,我会说每5年,对你的档案环境的评估有足够的预算,把旧格式带入新的格式。

你可能比我更了解,但video格局正在迅速改变。 现在可以实时在线编辑,即使在10年前,它也只能在严重的工具包上执行。 谁知道30年后的情况呢?

  • 设置你的档案窗口5年。
    • 在短期内,一个庞大的存储arrays应该足够了(
      • 大而缓慢的50TB磁盘可以在7万美元以下,可能还不错。
      • 一个LTO5磁带驱动器和50个磁带(价值超过50TB)可以有不到15000美元。
  • 您存储video的格式取决于您。
  • 开始查找和转换所有的旧的东西到这个新的存储。
  • 5年后,对档案环境进行全面评估。
    • 你使用什么格式?
    • 什么是新的格式?
    • 什么编解码器似乎是死路一条,你以什么方式存储媒体编码?
    • 决定如何迁移到新的存储方法(数据格式,磁盘/磁带/其他),并适当地花费。
  • 重复6次。

这应该让你30年。

我完全同意sysadmin1138的post在每一个方面一个警告 – 我不认为你会有预算真正实现你想要的。

有5个主要function需要创build;

  • 一个标准化的内容和目录政策 – 我知道你想要以一种格式存储所有内容,但你真的应该考虑两个 – 图像的PDF和video的H.264 – 都是多平台代码的长期支持格式,几乎由于目前世界各地的使用情况,目前的forms肯定会得到25至50年的一方或另一方的支持。
  • 目录或CMS来索引和发布内容。
  • 一个“内容摄取”系统 – 这将采取您的所有媒体,打包,编码,存储和更新每个新内容的目录。 您还需要手动或自动的内容质量检查。
  • 一个主要的内容存储 – 这将有两个主要的存储块; 一个小的一个在转码/检查时保存原始内容,另外一个小块保持“接近”的内容。 这是我遇到的RAID 6的唯一有效用途之一,但尝试使用具有24×365“占空比”的企业级质量磁盘。
  • 长期的备份系统 – 这是真正的资金将花在哪里,你需要select一个提供真正的长期备份能力的供应商。 如果我现在正在做这件事,那么我仍然会使用磁带来纯粹是为了数据长寿的原因,也许是IBM,因为他们在这方面有很多的经验。 您还需要考虑到您还需要定期进行磁带修复和数据validation,这意味着您需要至less与您拥有的最大磁带一样大的第三个存储块 – 当然也需要validation系统。 最重要的是,你需要确保你使用的备份软件也会存在很长时间,像* nix上的TAR可能会在一段时间内出现,但是它可能不会在function上给你提供你想要的东西确保您的磁带供应商不会忽视这一点。

所以你想做的事情可以做,在过去的二十多年里,我自己做过很多次,但是恐怕没有那么便宜。

祝你好运。

其他人就如何支持媒体提出了很好的build议。 我build议你花一些时间看一下国会指南的图书馆:

http://www.digitalpreservation.gov/formats/index.shtml

你也可以考虑构build一个便宜的白盒ZFSarrays。 你可能可以做一些事情,以适应你的需求低于10K美元。 随着驱动器死亡,将其replace为更大的驱动器,因此在生成数据时存储容量也会增加。 这可能会让你持续很长一段时间,而且,当它变老时,可以用更高容量的设备replace它。 优点是你的数据是在线的(所以可以根据需要进行访问),并且相对较好的保护,防止数据太多,这是一个严重的问题。

这里有一个体面的构build选项:

http://www.zfsbuild.com/

对于技术人员来说这很难,我会​​build议立即停止关于磁盘和技术的想法。 把你的业务问题分解成你必须做的决定。

例:

  • 你将如何处理模拟/杂项数字磁带格式转换成数字媒体,可以存储在某种数字存储?
  • 你将如何pipe理内容和相关的元数据? 存储非常简单 – 您可以将所有内容放在LTO磁带上,并将其存储在旧的盐矿中,但您无法访问数据。
  • 你在重新发明轮子吗? 如果你在大学,是否已经有集中的内容pipe理解决scheme? 或者,如果您需要购买/构build您自己的内容pipe理,那么您是否可以购买一个集中的基础设施? (磁带,对象存储,SAN)
  • 什么是真正的业务需求? 你真的想保留什么?为什么? 通常情况下,当你深入研究问题的核心时,真正的长期保留要求实际上只适用于一小部分数据。

请注意,如果您以有损格式存储数据,然后转换为另一种有损格式,然后再转换为另一种格式,则每次转换时video质量都会降低。

以下是关于audio的讨论,但同样适用:

您可以将任何audio格式转换为Ogg Vorbis。 但是,从MP3这样的有损格式转换到另一种有损格式,比如Vorbis,通常是一个坏主意。 MP3和Vorbis编码器通过丢弃您可能听不到的部分audio波形来实现高压缩比。 但是,MP3和Vorbis编解码器是非常不同的,所以他们每个都会丢弃audio的不同部分,虽然肯定有一些重叠。 将MP3转换为Vorbis包括将MP3文件解码为未压缩格式(如WAV),然后使用Ogg Vorbis编码器重新压缩。 解码后的MP3将丢失MP3编码器select丢弃的原始audio部分。 Ogg Vorbis编码器在压缩数据时将丢弃其他audio组件。 最好的结果将是一个Ogg文件,这听起来与原来的MP3相同,但最终产生的文件听起来可能会比原来的MP3更糟糕。 在任何情况下,你会得到一个比原来的MP3更好的文件。

由于许多音乐播放器可以同时播放MP3和Ogg文件,因此您不必将所有文件切换为一种格式或另一种格式。 如果您喜欢Ogg Vorbis,那么当您从原始无损audio源(如CD)编码时,我们鼓励您使用它。 从原始编码时,您会发现可以制作比您的MP3更小或更好质量(或两者)的Ogg文件。

(如果你必须绝对必须从MP3转换到Ogg,那么在Freshmeat上有几个转换脚本。)

http://www.vorbis.com/faq/#transcode

所以最好select一种无损格式,因为一旦你select了一种有损格式,你就会陷入困境。

也许我错过了一些东西,难道你不能使用编解码器的源代码可用的开放格式来编码所有的东西,然后把它全部放在Amazon S3上?

这样,亚马逊不得不担心数据的实际存储,除非在30年的时间内没有可以编译C / C ++的计算机,否则你将能够获得这些信息。