ESE中的事件476导致Exchange 2013数据库损坏

我在Exchange Server 2013上使用ESE上的事件476发生了一些随机数据库损坏。 这是发生这种情况的第五次,情况已经不可接受了。 以下是事件查看器的屏幕截图。

ESE数据库腐败

恢复过程必须从备份完成或由eseutil /p完成,这是一个有损坏的过程,因为日志也被损坏了。

在这一点上,我真的想孤立这个问题,并find我应该责备哪个设备。 此Exchange Server在vSphere 6.0中的虚拟机内运行。 VMDK通过Dell Powervault MD3820i的iSCSI导出。

由于错误的性质,存储子系统似乎有问题,但我们如何调查呢? 在以前的问题上,戴尔的人说存储中的一切都很好,但我不知道他们运行的诊断是否足够可靠。

提前致谢,

编辑:服务器上没有安装防病毒软件。 运行VMware vSphere 6.0的主机硬件是戴尔公司的DELL PowerEdge R730,可以运行vSphere。 在VMware上没有任何错误,或者在日志上没有任何错误,或者至less我没有在日志上发现任何问题。

存储通信是由iSCSI使用两条Cat6电缆以多path模式与PowerVault MD3820i上的双控制器完成的,因此这是一个相当默认的configuration,并且知道可以正常工作,并且再次被DELLauthentication。

我知道DELL认可的事情并不意味着这很好。 但是他们卖了硬件,他们推荐他们的最佳实践,我们跟着他们。

编辑II: PowerVault存储设备正在运行DELL的最新固件,版本是08_20_09_60,比最新版本的版本更新了,它解决了导致数据损坏的一个特定问题:解决了一个极有可能导致处理器故障可能会导致数据完整性问题

关于网卡,我们使用的是双路Broadcom NetXtreme II BCM57810 10GbE。 该卡不支持TCP引擎卸载和/或iSCSI卸载,所以这不应该是问题。

VMware也使用推荐的本地SAS控制器驱动程序运行: megaraid_sas驱动程序,而不是与VMware捆绑在一起的deafault tg3 。 我不认为这可能是问题,因为虚拟机在iSCSI存储上,而不是在本地存储上。

正如它在事件日志错误描述中所说的那样,这几乎肯定是系统硬件的一个错误,在讨论虚拟客户时这可能是一个相当模糊的概念。

我会非常努力地看待存储子系统 – 鉴于我最近在戴尔服务器上构build的虚拟集群的经验,我会怀疑网卡固件或存储系统固件依次出现问题。

喝了一杯茶后,我再次看到你的错误,你得到了1019错误。 这就是说,交换服务器去读取数据库中的一些数据,它'知道'已被写入,但无法find它(你读了https://support.microsoft.com/en-gb/kb/ 314917 – 这里详细讨论了这些错误)。

这只能是某种forms的磁盘损坏,根本原因很可能是存储系统的一个问题,特别是考虑到您提到这一点之前已经发生过。

我现在的另一个担心是,1019个错误可能相当隐蔽, 这可能是前一段写错的最终结果,因为数据不是一段时间就需要被检测出来。 例如,如果上周发生损坏,恢复昨天的备份将无济于事。

在这一点上,我肯定会联系戴尔,也许还有微软。

有了它运行的环境的有限的信息,我会开始检查以下。

确保AV有适当的排除设置交换。

确保存储和networking驱动程序是另一端设备的正确稳定版本。

查找失败之前的其他事件。

尝试包括更多关于硬件,服务器types,内存,CPU,网卡types和configuration信息(端口通道等)

请仔细查看您的vsphere日志是否有任何与存储相关的错误。

VMware 6中存在一些问题,可能会损坏交换存储(或任何类似数据库的活动)。 虚拟备份软件(如Veeam)使用更改块跟踪(CBT)function存在(相关的)问题。 search这些主题,你会发现其他腐败的Exchange商店。 这是一个特别讨厌的问题,因为在您的商店损坏后,CBT错误可能使您的所有备份还原点(包括异地)无法使用。 从我所能理解的方面来看,VMware有一个补丁可以防止正在运行的服务器发生故障,但在本文发布时,并没有解决CBT问题,而基于CBT的ESXi 6.0备份并不可靠。 FWIW – 我对戴尔的MD SAN有很好的经验。 他们不喜欢,但我有几个客户运行它们,从来没有一个问题。 同样的,我也有不less的Equallogic货架已经可靠了。 当然,我只使用基本的LUNfunction,没有像快照或复制的幻想; 依靠Veeam。