Citrix服务器场中的随机服务器突然蓝屏(大多数为0x0000008e和0x0000007e)

我负责Citrix Presentation Server 4.5服务器场。 从11月30日星期五开始,我的服务器开始随机崩溃。 到目前为止,我们已经经历了80次崩溃,所以对我们来说显然成为一个越来越大的问题。 我有12年以上的IT经验,所以我知道0和1之间的差异,但我很难解决这个问题。

我们已经回滚了我对于不同服务器群体所能想到的任何最近的变化,但是所有的群体似乎仍然崩溃。 我没有技巧来解释记忆转储find罪魁祸首。

  • 有没有人遇到过相同或类似的问题? – 可能是一个通用的Windows问题
  • 除了在WinDbg中执行“analyze -v”之外,我如何通过内存转储来查看实际触发了BSOD的内容?
  • 任何build议的步骤在这个底部?

任何帮助是极大的赞赏。 如果需要,我还可以提供内核内存转储或WinDbg输出的链接。

谢谢!

问题描述

我们遇到的大多数STOP错误是:

  • 0x0000008e KERNEL_MODE_EXCEPTION_NOT_HANDLED(50%)
  • 0x0000007e SYSTEM_THREAD_EXCEPTION_NOT_HANDLED(26%)
  • 0x00000050 PAGE_FAULT_IN_NONPAGED_AREA(21%)

我们也看到几个0x0000000a的 IRQL_NOT_LESS_OR_EQUAL(3%)。

对于0x0000008e和0x0000007e错误检查,exception代码是0xc0000005 (访问冲突)。 在WinDbg中打开转储文件时,大部分细节都完全一样,分别为0x0000008e和0x0000007e错误检查:

0x0000008e

  • exception地址:0x808bc9e3
  • 陷阱帧: [变化]
  • FAILURE_BUCKET_ID: 0x8E_nt!HvpGetCellMapped + 97
  • 可能由(IMAGE_NAME)引起:ntkrpamp.exe

0x0000007e

  • exception地址:0x808369b6
  • exceptionlogging地址:0xf70d3be0
  • 上下文logging地址:0xf70d38dc
  • FAILURE_BUCKET_ID: 0x7E_nt!MmPurgeSection + 14
  • 可能是由:memory_corruption引起的

大约30%的事故发生在17:00至19:00之间,这使我相信这种情况往往在注销时经常发生。 但是,15:00-17:00之间只有15%左右。

农场摘要

  • Windows Server 2003 R2 SP2上的Citrix Presentation Server 4.5 R06
  • 所有高优先级的补丁,至less在10月份安装
  • 在HP Proliant BL460c G6刀片服务器上使用VMWare ESX / vSphere 4.1进行虚拟化
  • 大约有53台Presentation Server正在生产中,分为三个孤岛,其中最大的一个受到影响
  • 每个Presentation Server有2个vCPU(5 GHz保留),8 GB RAM(全部保留)
  • 大量的可用磁盘空间
  • 非常less的打印机驱动程序 – 每晚自动删除未经批准的驱动程序
  • 约10时30分左右(平日里)
  • 会议的数量在15:00至19:00之间稳步下降至230

我们在旧版本的Citrix(PS4)上遇到了类似的问题,这个问题是HP Print驱动程序的问题。 在重新安装相应的软件之前,我必须清理整个软件,并且似乎清除了蓝色的scdreen问题。 也很好奇“每晚自动删除未经批准的司机”。 如果你每晚清除未经批准的,为什么要让它们安装在第一位呢? 您可以阻止他们安装在citrix策略中。 认为它是在打印 – >驱动程序 – >本地打印机驱动程序自动安装(设置为不自动安装)

我们结束了应用PS 4.5汇总包7(这是没有安装,因为它以前打破了我们的会话可靠性)和一些后R07修补程序。

此外,我们用最新的UPHClean 1.6g代替了最新的UPHClean 2.0testing版,而微软已经将其作为一个单独的组件(仍然内置于Windows的更新版本)放弃。

这个农场一直以来都是稳定的,但是为什么所有的地方突然间都输了,没有做出什么大的改变,这仍然是个谜。