最近,我们在集群中看到了一系列有趣的故障,用户的作业将间歇性地失败,出现login错误,帐户locking错误或文件权限错误。
我们的群集是松耦合和粗粒度的,build立在40个16路Windows 2003机器上。 他们通过本地和广域网上的域控制器参与企业域。 作业提交通过第三方应用程序(ActiveBatch)进行处理,文件存储在Windows 2003服务器导出的SAN和Isilon群集上较新的CIFS共享之间进行分割。
作业是定向非循环图,由1到5,000个进程组成,通过ActiveBatch在头节点上进行调度。 大多数作业都是小batch file或Perl脚本,它们为在FORTRAN中编写的计算代码执行环境设置。 这些作业的input和输出文件存储在SAN或Isilon上。
我们所看到的是间歇性的身份validation失败,最初我们认为是在Isilon上孤立的。 一般故障模式是100-200个作业将开始执行,每个作业在一个文件中引用通用configuration数据。 大多数会成功,然而,在多台机器上的多个作业将在客户端出现文件权限错误(0x775 “被引用的帐户当前locking…”或0x52E “未知的用户名或错误的密码” ) 失败 。
检查这些时间段的事件日志报告0安全审核失败,但同一用户的多个安全审核成功! 唯一靠近的事件日志条目是一个6013事件,让我们知道“系统正常运行时间为2199088秒”。
最近,当作业调度软件试图在远程机器上创build作业时,我们也看到了同样的错误。 ActiveBatch会将作业详细信息发送到机器上运行的服务,然后在创build作业时尝试模拟用户。 与文件权限失败一样,当用户的帐户既没有被locking也没有未知(实际上在这些尝试失败后,同一台机器上的进程成功),我们看到了帐户locking和未知的用户/密码。
我对域控制器不够熟悉,也没有足够的权限去探索,知道这是客户端问题还是服务器端问题。 没有客户端事件日志失败条目导致我相信失败可能是DC超时或networking问题。 但是,在随机服务器和DC之间的Wireshark询问stream量没有显示出偶尔的Kerberos Response Too Big消息之外的严重不一致。
这是高身份validation/模拟负载导致瞬间失败的域控制器设置的常见问题?
这是不常见的,除非有什么东西会产生导致locking的故障。
启用Netlogon详细logging可能有助于追踪。
[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Netlogon\Parameters] "DBFlag"=dword:24401F04
创build的文件是%systemroot%\ debug \ netlogon.log和netlogon.bak。
这些文件可以在高容量环境中快速翻转,因此您可能需要增加文件大小,默认为20 MB。 要增加到50 MB:
[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Netlogon\Parameters] "MaximumLogFileSize"=dword:3200000
启用Net Logon服务的debugging日志logging
http://support.microsoft.com/kb/109626