Intereting Posts

为什么Buildroot的通用pc_x86_64_bios_defconfig图像挂在Virtualbox？在nginx负载平衡中的响应内置在chroot监狱RHEL 5返回没有这样的文件或目录如何/在哪里设置Sendmail重排间隔 DNSvalidation失败通过相同的主机提供冗余服务，只需要不同的端口，这是否很平常？如何确定hetzner.de专用服务器的networking问题的原因？ Ubuntu：在备份磁盘上configurationgrub2 使所有的东西去https，除了在轨道，nginx，乘客一个url Windows Server虚拟磁盘高速caching设置以可分辨方式从思科路由器获取信息 CentOS7上的OpenVAS Redis不会启动 Systemd：启动时运行Python脚本（virtualenv）在同一个虚拟机上运行两个SQL Server 2014实例会有性能开销吗？ 301永久redirect改变URL结构

什么时候所有的事情都会爆炸？

用户不能收到他们的电子邮件，首席执行官不能到达公司的主页，而你的传呼机只是以“911”代码进行。一切都爆炸了，你做什么？

第一个答案是保持冷静！我了解到，恐慌的困难往往会让事情变得更糟。一旦实现了，接下来的事情就是要真正确定问题所在。用户和pipe理人员的投诉将从各个angular度向您发出，告诉您他们不能做什么，但不是什么问题。

一旦你知道这个问题，你可以开始计划修复它，并开始给你的愤怒的用户一个时间尺度！

保持冷静

别吓坏了呼吸！（从隔膜，它有帮助。）如果你已经学习冥想，这也可以帮助。

当面对极度压力时，你的身体会进入一个飞行或战斗模式，因为你的身体认为它处于生死攸关的境地。在这个时候，你的身体实际上会将更less的血液输送到你的大脑的某些部位，从而减less推理等function。这会有效地降低你的智商，因为本能，而不是理性，开始主宰你的大脑function。如果你曾经或目睹过激烈的争论，你可能会认识到这些症状是因为人们的情绪激动和理性需要度假。后来，当人们有机会冷静下来，他们会更容易接受犯错误或错误，更有能力看到对方，但在当下的热度，更不用说。

保持镇静，保持对你的理智，将使你的大脑全面发挥作用，并确保你根据证据和理由作出理性的决定，而不是情绪和恐惧。

分诊

有效利用有限的资源，以最低的成本获得最大的收益，在这里至关重要。尽可能早地做出决定，哪些事情必须立即决定，哪些事情可以等待一段时间（几小时，几天），哪些事情可以无限期地等待。还要学会认识到什么时候什么东西是不可挽回的，不值得保存的（例如路由器的一半融化了，即使它是唯一的，你不能保存它，购买一个新的，然后赶到现场或者find可以填补空白）。

保持情景意识

不要让你的注意力被一些有趣的问题困扰，或者被你不太明白的东西所困。保持专注于大局和获得最重要的事情。

使用科学方法

形成一个假设。确定你将如何testing这个假设。收集数据来检验假设。寻找不确定的数据。细化你的假设，并根据需要多次重复这个循环，直到你对你的假设有足够的信心采取行动。

务实

现在不是教条的时候了。从灾难中恢复时，可以在这里和那里采取一些快捷方式。这基本上是应计技术债务。在许多公司，灾难性的失败意味着灾难性的收入损失。即使在一个不稳定的基础上，让事情继续下去也好，而不是为了你的公司的生计。与往常一样，判断在这里至关重要。有时支持一个指向服务器机架的扇形风扇是有道理的，有时却不行。

照顾自己

你在这个紧急情况下工作多久了？你最后一次喝水是什么时候？你上次吃饭是什么时候？你醒了多久了？不要因为出现紧急情况而把自己烧掉，要花时间保持水分，充足和rest（以防万一，这是一个漫长而多日的时间）。

招聘帮助

你们公司里几乎可以肯定有很多有才干的人，他们既有动力又有能力提供帮助。不要让太多人跑来跑去，给对方造成麻烦。也要警惕恼人的人们，通过“刺客”。 find想要帮助的人，让他们处理有针对性的任务，并确保人们正在相互沟通。

通信

沟通是至关重要的没有什么比未知的可怕。当人们什么都不知道的时候，事情就会被打破，一个空话声明在X个小时内就会恢复过来，只不过让人放心（即使X小时过去了，事情仍然被打破了，那就更不容易了）。游戏中的压力可能会导致你过于乐观的WAG时间估计，但这是错误的过程。不要只说你正在努力，不要说事情会被X时间所固定。开放，展示你的过程，详细说明你的进步和挫折。提供问题的洞察力，你的追踪过程和你的计划（虽然不要把人淹没在细节中）。说明问题不是棘手的问题，表明事情最终是正确的，表明问题上有胜任的人，这些事情比毫无根据的时间表承诺更让人放心。

不要惊慌。

第0步。检查它是不是你的监控系统有问题

login到serverfault

立即预订飞往非引渡国家的航class

首先检查基础知识，看起来很愚蠢，但事情就像

服务器设备上的电源是否已打开？（如果你主机异地）
您的托pipe服务提供商已经停工

我知道，当问题出现在上游的时候，可能会浪费很多时间寻找解决scheme

我平事。之后会发生什么变化很大，取决于ping的结果。

对不起，这个问题已经在最喜欢的系统pipe理员卡通中完美的回答了：

责备networking。

（这是一个笑话！）

RTFLF – 阅读Frakkin的日志文件

（我不能相信这一切，这一切都去了斯科特Hanselman ）

不要试图解决任何问题。

确保你确切地知道真正的，根本的问题是什么。现在开始修理东西。如果有很多事情需要解决，请仔细考虑哪些事情可以推迟（希望至less在下一个工作日！），而且现在必须确定。

但最重要的是：一旦一切正常，问为什么“一切都炸了”？你打算如何防止这种情况再次发生？有没有什么步骤可以使解决scheme更容易，如果它再次发生？

让人们知道，你在上面，如果可能的话，给他们估计什么时候事情会恢复正常。

至于实际的故障排除，显然取决于什么是错的。我通常为各种服务保留一个“检查状态”脚本的集合。

检查电缆！当一个简单的Eth0电缆交换将解决问题时，我已经失去了检查其他东西的时间…

你应该有应急计划。

必要的系统应devise为具有自动故障转移function或经过logging和testing的恢复计划。

系统越重要，你需要build立更多的弹性，它应该更自动化。

如果你没有，那就不重要了！

确保你的简历备份是安全的:)然后，

find共同点。所有受影响的系统都有哪些共同之处。

找出发生了什么变化。你应该在组织中进行一些正式的变更pipe理。

新家伙在哪里……老板在哪里？他们中的一个走捷径了吗？（这只是一个快速的服务器重新启动，它可能会受到伤害）

我喜欢这个故障排除列表简单故障排除应用程序现在修复一切 =）

声明很难提供一套具体的行动。你的第一步将基于：

你在哪里？
您能够从与您联系的人中挤出多less信息
你有哪些直接的工具可以帮助你排除故障（或寻找信息）
您对networking的物理和逻辑path的了解
你有多less帮助（团队的一部分？或寂寞的忍者？）

显然，你需要保持冷静，警惕手头的问题。你的networking故障排除经验会告诉你，这很可能是一件小事，例如：

断开的电缆
一个不通知的维护（另一个技术“固定”的东西）
由于他/她的微波炉烤芝士披萨，在他的笔记本电脑无线连接丢失之后，你的首席执行官对这家公司的反应过度。

话虽如此，在以下几个方面也可能是严重的：

物理运输（连接）
硬件（路由器\交换机\服务器）
存储（无法访问\妥协\删除）
软件（服务>错误configuration\ Attacked \ offline）

关键部分是你知道多less问题。你的参考点是什么？（从哪个angular度来看“系统下”？）。

检查DNS。

从简单开始，朝着荒谬的方向努力。

功率？

以太网？

程序运行？

…

外星人？