Cliffhanger:备份是正确的…在这里…对不对?

在我的工作中,备份的优先级低得惊人。 备份策略是在不久前实施的,从那时起,只是假设备份没有问题。 如果你问系统pipe理员,他们会说一切都备份。

但是,当你要求一个特定的备份时,有一半的时间不在那里:

  • 磁盘已满
  • 磁带失败
  • 看起来像有人禁用备份工作
  • networking连接中断
  • 我们多年前订购了这个磁盘,但是财务部门没有批准这个订单
  • 这些文件已损坏
  • 文件包含错误的数据库
  • 只有事务日志备份(没有完整的没有用)

几个星期前,由于其中一台服务器丢失了太多的RAID磁盘,灾难变得非常紧密。 幸运的是,如果您尝试了很多次,那么一个磁盘仍然可以复制数据。

但即使在接近灾难之后,我也不能说服系统pipe理员改善这种情况。 所以我想知道,打开人眼的任何提示? 在我看来,我们正在沿着悬崖边走路。

    你总是必须从顶部得到这些东西。

    目前的备份策略是由pipe理层支持和理解的吗? 如果没有,这是没用的。

    行政pipe理人员需要了解问题以及涉及哪些风险(丢失您需要合法生存的财务数据,或者需要多年收集的客户数据),并在决定行动时决定权衡让某人(如你)采取行动。

    如果您无法进入pipe理层,请尝试使用业务控制人员或其他财务职位,这些职位的数据检索及其完整性对公司的报告而言非常重要。 如果需要,他们反过来可以“开始风暴”…

    从哪里开始? 这是一个等待发生的灾难。 系统pipe理员的主要工作职能是确保数据备份和恢复。 其他一切都是次要的。 不,如果不是,但是。

    以下是您可以做的一些事情:

    1. 跟踪恢复的KPI。 应该可以生成一个报告,显示有多less恢复请求已经成功。 任何小于100%的东西都要彻底调查。 pipe理爱情报告,这是很难的证据。

    2. 应该有所有备份和恢复操作的文档化程序,包括所有系统及其备份策略,磁带轮换,计划,升级path,testing恢复等。请查看这些操作。

    3. 与系统pipe理员的经理沟通,并expression您的担忧。 带着恢复无效的证据进行武装。 如果没有快乐的话

    认真 – 踢大惊小怪。 像这样的东西可以摧毁一个公司。

    build议(至less)每年的灾难恢复testing。 成功执行testing所需的工作应该揭示缺点。

    在我工作的地方,我们有一个非常好的IT部门,每年他们从欧洲各地的办公室聚到一起,在数据中心的租用服务器上“恢复盛宴”,有效地模拟了一天工作人员上class后发现的情况办公室在晚上烧毁了。

    让大老板参与进来,提醒他,如果灾难来临,他会在当年(甚至更糟糕的时候)拿出奖金,所以也许谨慎的做一个类似的灾难恢复工作。 它不应该花费很长时间或花费太多 – pipe理员被送到离线的备份磁带,并被告知从他们身上创造一个相同的办公环境。

    然后坐下来看IT变得越来越好 – 一旦pipe理层意识到公司数据已经危险地接近永久丢失,火花就会飞起来(从战略上放在pipe理员那里的火箭)

    责备pipe理员很容易 – 但奥斯卡是正确的:这些东西是从顶端驱动的。 如果pipe理层不花钱把备份放在首位,那么系统pipe理员通常会运气不佳,尽其所能地利用这些资源。

    关键在于,如果你是那些不幸的pipe理员之一 – 而且我曾经在这艘船上进行一些客户交易,那么你是否确保pipe理层一再被简要介绍,并且以一种可以确认的方式 – 对企业有风险。

    我的策略是不断锤炼问题。 如果你这样做的话,有时候这些问题就会得到解决,但主要是这样,我所报告的任何人都不能隐藏在“我从来没有听说过”的借口之后。 作为一名顾问,我通常可以做得更好。 我可以让我的老板向我介绍更多的高级pipe理人员,因为这是一个漏洞。 这会把责任推到一边,至less把重点放在比我高的层次上。

    同时,您必须发挥创造力,努力将客户可以提供的任何资源的风险降到最低。

    虽然在某些情况下,pipe理员可能是有罪的,但pipe理层总是负责任的:要么知道风险,要么做得不够好,或者雇用那些没有提醒他们注意这些风险的人。

    我负责遍布英国西北部的大约200台服务器,显然这太多了,无法手动检查。

    我configuration备份,以便在完成时运行一个(VBScript)脚本,通过备份日志查看,确定备份是否正常工作,并将logging写入具有备份结果的中央数据库中。 然后,在总部,我运行一个查询这个数据库的脚本,并给我一个网站列表,其中的备份报告了一个错误,或者没有来自站点的报告。

    最终的结果是,当我坐在办公桌前时,我有一个需要检查备份的所有站点的列表。

    这一切的关键是,默认的假设是备份失败,并认为备份只有在我的VBScript没有检测到错误, 把这个结论写到我的数据库。 这确保备份失败不会被忽视。

    有些服务器使用Backup Exec,一些NTBackup,有些服务器只是通过networking将文件复制到另一台服务器上。 这与服务器的备份types无关,因为可以轻松调整我的VBScript来检查错误。 我的脚本实际上是非常基本的,它只是打开备份报告作为一个文本文件,像“挂载失败”,“磁带已满”,“CRC错误”等,我敢肯定一个专业的程序员会一个冷静的工作。 然而,整个事情是简单而健壮的,而且在我看到备份失败报告的意义上是主动的,不pipe我是否愿意,如果我自觉地决定忽略报告,我只会注意到一个错误。

    JR

    PS 99%的备份失败是因为用户忘记更换备份磁带。 你不只是爱用户:-)

    未经testing的备份不是任何备份。