什么时候所有的事情都会爆炸?

用户不能收到他们的电子邮件,首席执行官不能到达公司的主页,而你的传呼机只是以“911”代码进行。 一切都爆炸了,你做什么?

    第一个答案是保持冷静! 我了解到,恐慌的困难往往会让事情变得更糟。 一旦实现了,接下来的事情就是要真正确定问题所在。 用户和pipe理人员的投诉将从各个angular度向您发出,告诉您他们不能做什么,但不是什么问题。

    一旦你知道这个问题,你可以开始计划修复它,并开始给你的愤怒的用户一个时间尺度!

    保持冷静

    别吓坏了 呼吸! (从隔膜,它有帮助。)如果你已经学习冥想,这也可以帮助。

    当面对极度压力时,你的身体会进入一个飞行或战斗模式,因为你的身体认为它处于生死攸关的境地。 在这个时候,你的身体实际上会将更less的血液输送到你的大脑的某些部位,从而减less推理等function。 这会有效地降低你的智商,因为本能,而不是理性,开始主宰你的大脑function。 如果你曾经或目睹过激烈的争论,你可能会认识到这些症状是因为人们的情绪激动和理性需要度假。 后来,当人们有机会冷静下来,他们会更容易接受犯错误或错误,更有能力看到对方,但在当下的热度,更不用说。

    保持镇静,保持对你的理智,将使你的大脑全面发挥作用,并确保你根据证据和理由作出理性的决定,而不是情绪和恐惧。

    分诊

    有效利用有限的资源,以最低的成本获得最大的收益,在这里至关重要。 尽可能早地做出决定,哪些事情必须立即决定,哪些事情可以等待一段时间(几小时,几天),哪些事情可以无限期地等待。 还要学会认识到什么时候什么东西是不可挽回的,不值得保存的(例如路由器的一半融化了,即使它是唯一的,你不能保存它,购买一个新的,然后赶到现场或者find可以填补空白)。

    保持情景意识

    不要让你的注意力被一些有趣的问题困扰,或者被你不太明白的东西所困。 保持专注于大局和获得最重要的事情。

    使用科学方法

    形成一个假设。 确定你将如何testing这个假设。 收集数据来检验假设。 寻找不确定的数据。 细化你的假设,并根据需要多次重复这个循环,直到你对你的假设有足够的信心采取行动。

    务实

    现在不是教条的时候了。 从灾难中恢复时,可以在这里和那里采取一些快捷方式。 这基本上是应计技术债务。 在许多公司,灾难性的失败意味着灾难性的收入损失。 即使在一个不稳定的基础上,让事情继续下去也好,而不是为了你的公司的生计。 与往常一样,判断在这里至关重要。 有时支持一个指向服务器机架的扇形风扇是有道理的,有时却不行。

    照顾自己

    你在这个紧急情况下工作多久了? 你最后一次喝水是什么时候? 你上次吃饭是什么时候? 你醒了多久了? 不要因为出现紧急情况而把自己烧掉,要花时间保持水分,充足和rest(以防万一,这是一个漫长而多日的时间)。

    招聘帮助

    你们公司里几乎可以肯定有很多有才干的人,他们既有动力又有能力提供帮助。 不要让太多人跑来跑去,给对方造成麻烦。 也要警惕恼人的人们,通过“刺客”。 find想要帮助的人,让他们处理有针对性的任务,并确保人们正在相互沟通。

    通信

    沟通是至关重要的 没有什么比未知的可怕。 当人们什么都不知道的时候,事情就会被打破,一个空话声明在X个小时内就会恢复过来,只不过让人放心(即使X小时过去了,事情仍然被打破了,那就更不容易了)。 游戏中的压力可能会导致你过于乐观的WAG时间估计,但这是错误的过程。 不要只说你正在努力,不要说事情会被X时间所固定。 开放,展示你的过程,详细说明你的进步和挫折。 提供问题的洞察力,你的追踪过程和你的计划(虽然不要把人淹没在细节中)。 说明问题不是棘手的问题,表明事情最终是正确的,表明问题上有胜任的人,这些事情比毫无根据的时间表承诺更让人放心。

    不要惊慌。

    第0步。检查它是不是你的监控系统有问题

    login到serverfault

    立即预订飞往非引渡国家的航class

    首先检查基础知识,看起来很愚蠢,但事情就像

    1. 服务器设备上的电源是否已打开? (如果你主机异地)
    2. 您的托pipe服务提供商已经停工

    我知道,当问题出现在上游的时候,可能会浪费很多时间寻找解决scheme

    我平事。 之后会发生什么变化很大,取决于ping的结果。

    对不起,这个问题已经在最喜欢的系统pipe理员卡通中完美的回答了:

    迪尔伯特的灾难恢复计划

    责备networking。

    (这是一个笑话!)

    RTFLF – 阅读Frakkin的日志文件

    (我不能相信这一切,这一切都去了斯科特Hanselman )

    不要试图解决任何问题。

    确保你确切地知道真正的,根本的问题是什么。 现在开始修理东西。 如果有很多事情需要解决,请仔细考虑哪些事情可以推迟(希望至less在下一个工作日!),而且现在必须确定。

    但最重要的是:一旦一切正常,问为什么“一切都炸了”? 你打算如何防止这种情况再次发生? 有没有什么步骤可以使解决scheme更容易,如果它再次发生?

    让人们知道,你在上面,如果可能的话,给他们估计什么时候事情会恢复正常。

    至于实际的故障排除,显然取决于什么是错的。 我通常为各种服务保留一个“检查状态”脚本的集合。

    检查电缆! 当一个简单的Eth0电缆交换将解决问题时,我已经失去了检查其他东西的时间…

    你应该有应急计划。

    必要的系统应devise为具有自动故障转移function或经过logging和testing的恢复计划。

    系统越重要,你需要build立更多的弹性,它应该更自动化。

    如果你没有,那就不重要了!

    确保你的简历备份是安全的:)然后,

    find共同点。 所有受影响的系统都有哪些共同之处。

    找出发生了什么变化。 你应该在组织中进行一些正式的变更pipe理。

    新家伙在哪里……老板在哪里? 他们中的一个走捷径了吗? (这只是一个快速的服务器重新启动,它可能会受到伤害)

    我喜欢这个故障排除列表简单故障排除应用程序现在修复一切 =)

    声明很难提供一套具体的行动。 你的第一步将基于:

    • 你在哪里?
    • 您能够从与您联系的人中挤出多less信息
    • 你有哪些直接的工具可以帮助你排除故障(或寻找信息)
    • 您对networking的物理和逻辑path的了解
    • 你有多less帮助(团队的一部分?或寂寞的忍者?)

    显然,你需要保持冷静,警惕手头的问题。 你的networking故障排除经验会告诉你,这很可能是一件小事,例如:

    • 断开的电缆
    • 一个不通知的维护(另一个技术“固定”的东西)
    • 由于他/她的微波炉烤芝士披萨,在他的笔记本电脑无线连接丢失之后,你的首席执行官对这家公司的反应过度。

    话虽如此,在以下几个方面也可能是严重的:

    • 物理运输(连接)
    • 硬件(路由器\交换机\服务器)
    • 存储(无法访问\妥协\删除)
    • 软件(服务>错误configuration\ Attacked \ offline)

    关键部分是你知道多less问题。 你的参考点是什么? (从哪个angular度来看“系统下”?)。

    检查DNS。

    从简单开始,朝着荒谬的方向努力。

    功率?

    以太网?

    程序运行?

    外星人?