用户不能收到他们的电子邮件,首席执行官不能到达公司的主页,而你的传呼机只是以“911”代码进行。 一切都爆炸了,你做什么?
第一个答案是保持冷静! 我了解到,恐慌的困难往往会让事情变得更糟。 一旦实现了,接下来的事情就是要真正确定问题所在。 用户和pipe理人员的投诉将从各个angular度向您发出,告诉您他们不能做什么,但不是什么问题。
一旦你知道这个问题,你可以开始计划修复它,并开始给你的愤怒的用户一个时间尺度!
保持冷静
别吓坏了 呼吸! (从隔膜,它有帮助。)如果你已经学习冥想,这也可以帮助。
当面对极度压力时,你的身体会进入一个飞行或战斗模式,因为你的身体认为它处于生死攸关的境地。 在这个时候,你的身体实际上会将更less的血液输送到你的大脑的某些部位,从而减less推理等function。 这会有效地降低你的智商,因为本能,而不是理性,开始主宰你的大脑function。 如果你曾经或目睹过激烈的争论,你可能会认识到这些症状是因为人们的情绪激动和理性需要度假。 后来,当人们有机会冷静下来,他们会更容易接受犯错误或错误,更有能力看到对方,但在当下的热度,更不用说。
保持镇静,保持对你的理智,将使你的大脑全面发挥作用,并确保你根据证据和理由作出理性的决定,而不是情绪和恐惧。
分诊
有效利用有限的资源,以最低的成本获得最大的收益,在这里至关重要。 尽可能早地做出决定,哪些事情必须立即决定,哪些事情可以等待一段时间(几小时,几天),哪些事情可以无限期地等待。 还要学会认识到什么时候什么东西是不可挽回的,不值得保存的(例如路由器的一半融化了,即使它是唯一的,你不能保存它,购买一个新的,然后赶到现场或者find可以填补空白)。
保持情景意识
不要让你的注意力被一些有趣的问题困扰,或者被你不太明白的东西所困。 保持专注于大局和获得最重要的事情。
使用科学方法
形成一个假设。 确定你将如何testing这个假设。 收集数据来检验假设。 寻找不确定的数据。 细化你的假设,并根据需要多次重复这个循环,直到你对你的假设有足够的信心采取行动。
务实
现在不是教条的时候了。 从灾难中恢复时,可以在这里和那里采取一些快捷方式。 这基本上是应计技术债务。 在许多公司,灾难性的失败意味着灾难性的收入损失。 即使在一个不稳定的基础上,让事情继续下去也好,而不是为了你的公司的生计。 与往常一样,判断在这里至关重要。 有时支持一个指向服务器机架的扇形风扇是有道理的,有时却不行。
照顾自己
你在这个紧急情况下工作多久了? 你最后一次喝水是什么时候? 你上次吃饭是什么时候? 你醒了多久了? 不要因为出现紧急情况而把自己烧掉,要花时间保持水分,充足和rest(以防万一,这是一个漫长而多日的时间)。
招聘帮助
你们公司里几乎可以肯定有很多有才干的人,他们既有动力又有能力提供帮助。 不要让太多人跑来跑去,给对方造成麻烦。 也要警惕恼人的人们,通过“刺客”。 find想要帮助的人,让他们处理有针对性的任务,并确保人们正在相互沟通。
通信
沟通是至关重要的 没有什么比未知的可怕。 当人们什么都不知道的时候,事情就会被打破,一个空话声明在X个小时内就会恢复过来,只不过让人放心(即使X小时过去了,事情仍然被打破了,那就更不容易了)。 游戏中的压力可能会导致你过于乐观的WAG时间估计,但这是错误的过程。 不要只说你正在努力,不要说事情会被X时间所固定。 开放,展示你的过程,详细说明你的进步和挫折。 提供问题的洞察力,你的追踪过程和你的计划(虽然不要把人淹没在细节中)。 说明问题不是棘手的问题,表明事情最终是正确的,表明问题上有胜任的人,这些事情比毫无根据的时间表承诺更让人放心。
不要惊慌。
第0步。检查它是不是你的监控系统有问题
login到serverfault
立即预订飞往非引渡国家的航class
首先检查基础知识,看起来很愚蠢,但事情就像
我知道,当问题出现在上游的时候,可能会浪费很多时间寻找解决scheme
我平事。 之后会发生什么变化很大,取决于ping的结果。
对不起,这个问题已经在最喜欢的系统pipe理员卡通中完美的回答了:
责备networking。
(这是一个笑话!)
RTFLF – 阅读Frakkin的日志文件
(我不能相信这一切,这一切都去了斯科特Hanselman )
不要试图解决任何问题。
确保你确切地知道真正的,根本的问题是什么。 现在开始修理东西。 如果有很多事情需要解决,请仔细考虑哪些事情可以推迟(希望至less在下一个工作日!),而且现在必须确定。
但最重要的是:一旦一切正常,问为什么“一切都炸了”? 你打算如何防止这种情况再次发生? 有没有什么步骤可以使解决scheme更容易,如果它再次发生?
让人们知道,你在上面,如果可能的话,给他们估计什么时候事情会恢复正常。
至于实际的故障排除,显然取决于什么是错的。 我通常为各种服务保留一个“检查状态”脚本的集合。
检查电缆! 当一个简单的Eth0电缆交换将解决问题时,我已经失去了检查其他东西的时间…
你应该有应急计划。
必要的系统应devise为具有自动故障转移function或经过logging和testing的恢复计划。
系统越重要,你需要build立更多的弹性,它应该更自动化。
如果你没有,那就不重要了!
确保你的简历备份是安全的:)然后,
find共同点。 所有受影响的系统都有哪些共同之处。
找出发生了什么变化。 你应该在组织中进行一些正式的变更pipe理。
新家伙在哪里……老板在哪里? 他们中的一个走捷径了吗? (这只是一个快速的服务器重新启动,它可能会受到伤害)
我喜欢这个故障排除列表简单故障排除应用程序现在修复一切 =)
声明很难提供一套具体的行动。 你的第一步将基于:
显然,你需要保持冷静,警惕手头的问题。 你的networking故障排除经验会告诉你,这很可能是一件小事,例如:
话虽如此,在以下几个方面也可能是严重的:
关键部分是你知道多less问题。 你的参考点是什么? (从哪个angular度来看“系统下”?)。
检查DNS。
从简单开始,朝着荒谬的方向努力。
功率?
以太网?
程序运行?
…
外星人?