执行根本原因分析

我想了解更多关于如何执行根本原因分析。 更多的时候,我们的部门告诉用户尝试重新启动(他们的Windows XP系统),这实际上“修复”了很多问题。 当我匆忙(有时每小时付钱都会对此有所贡献)时,我可能会尝试find解决方法,以便快速解决问题,而不是实际执行根本原因分析。

大部分时间我正在查看日志文件或事件查看器中的这些信息。 有时我会使用Sysinternals工具或者偶尔运行一个数据包嗅探器。 我可能不会像我应该那样使用Sysinternals程序。 关于如何使用这些工具的具体见解,何时以及为什么也会有所帮助。

我知道这是一个悬而未决的问题,但请您简要介绍一下您使用的方法,工具等。 看起来很多SF上的pipe理员使用更深入的过程,我想了解更多。 如果这有助于缩小问题的范围,那么我会对与AD环境中的Windows服务器和客户端相关的工具,提示,技巧等问题感兴趣。

找出问题的根本原因取决于问题 – 你最初的本能去查看日志文件/ sysinternals工具/数据包嗅探器通常是正确的。
我会添加在Windows系统上运行MS恶意软件删除工具和良好的AV程序(并确保他们没有像Cyber​​Defender或其他AV木马恶意软件的东西。

Stack Exchange的人们是“5 Whys”方法的支持者( http://en.wikipedia.org/wiki/5_Whys ,也是这个很好的简短的PDF文件 )。 这是做根本原因分析的一个非常有价值的工具。


除此之外,我会画两大类和我经常问的一些问题/我检查的东西:

神秘的行为与networking无关
例如“Word一直在崩溃”

基本问题要问:

  1. 什么改变?
    (不要采取“无”的答案 – 这是第一个谎言,新的软件,补丁等都是有效的。)
  2. 当你遇到问题时你在做什么?
    (尽量在这里提取尽可能多的细节 – 在我上面的例子中“我打开插入首字母和程序崩溃的热键”)
  3. 它曾经工作过吗?
    (如果是这样,从上面的(1)开始看东西)
  4. 你能在你的系统上重现这个问题吗?
    (如果是这样,这是一个好兆头:向供应商提供技术支持电话可能会有所帮助,否则,您需要查看用户的系统以了解其余问题。)
  5. 用户的环境与环境有什么不同?
  6. 是用户的硬件怀疑(运行内存testing,从硬盘寻找SMART错误等)
  7. 如果你已经得到了这么多(硬件检查,软件检查,没有病毒,没有恶意软件)去访问用户一天。 遵守他们的工作习惯。
    我的公司曾经有一个神秘的系统locking,是以特定的频率点击鼠标(我们仍然不知道为什么,但我们不得不看一个用户这样做,练习一天,以便能够重现它可靠)

与networking有关的问题

很多是类似的,但有一些更具体的指导。

  1. 什么改变?
    (是的,你总是从那里开始)
  2. 什么坏了?
    • 你能访问网页吗? 这只是一个下降? 如果是的话,是每个人或只有你 ?
    • 你能ping通networking上的东西吗?
      如何通过IP? traceroute有多远?
  3. 什么时候破裂?
    • 总是在同一个时间?
    • 每隔N天一段时间?
    • 随机( 真的是随机的吗?把它在日历上)
  4. 远程站点有些奇怪吗?
    • 看看DNS – 如果是循环播放,可能会出现远端破损
    • 我们在谈论VPN的另一端吗? 怎么了VPN(日志!)?
  5. 本地网站有些奇怪吗?
    • 检查你的本地防火墙
    • 检查任何“过滤软件”
  6. 检查您的ISP,看看是否有任何已知的问题
  7. 检查网站,如http://www.internetpulse.net/已知的networking问题
  8. 检查用户的机器
    (TCP设置等 – 通常不是问题,但有时。)

除了迄今为止的出色答复之外,我还要补充:

  • 确定问题发生的date/时间。 这看起来很明显,但是我看到太多的问题没有logging,后来又做出了不正确的假设。 这与“改变了什么”的步骤很相关。

  • 问题是可重现的还是间歇性的? 这是至关重要的,因为可重复的症状要比那些间歇性的症状更容易和更快解决。 如果它是可重复的,确保步骤被logging。

  • 确定症状。 请注意,我们区分作为根本原因performance的“症状”和实际问题/根本原因。

    1. 有没有其他的活动可以重现症状?
    2. 还有什么其他症状?
    3. 如果问题是间歇性的,我们可以确定一个会导致它发生的活动吗?
    4. 在什么情况下可以预防症状的发生? 问题是否仅在使用networking帐户login时才会发生,但如果在本地login则可以正常工作? 问题是否以普通用户身份login时发生,但如果以提升的权限login,则可以正常工作? 它只发生在一个系统上,而另一个系统应该是类似的不显示症状?
  • 将问题本地化为可能出现故障的function组件。 如果Web应用程序中存在错误,是应用程序代码,Web服务器,托pipeWeb服务器的操作系统,networking还是远程端? 在这一点上,这是最好的猜测,所以资源集中在可能的原因,所以确保其他人知道这是理论/猜想。

  • 质疑你的假设,并试图收集经验数据来支持假设和结论。 告诉某人x不存在问题的感觉真是不好,后来才发现它确实存在。 通常当有不正确的解决scheme时,可能有数据支持正确的解决scheme。

这听起来像你要求一般的故障排除帮助,如您的故障排除规则,解决方法? 而不是如何做一个特定types的RCA( http://en.wikipedia.org/wiki/Root_cause_analysis )。