Solaris 10服务器似乎正在自行closures

每隔几周,我们的一台Solaris 10服务器就无法响应。 我可以telnet到22端口,并获得SSH横幅,但我无法build立一个SSH连接。 这是戴尔R610,所以我通过DRAC控制台login,虽然我可以按Enter键并获得一个新的线路,但每当我尝试运行一个命令,如“Prstat”控制台挂起,我无法控制C或其他任何东西。 我也无法发送一个CTRL-ALT-DEL来重新启动,并且不得不最终进行一个远程硬盘重启。

没有什么奇怪的日志出现,我们已经尝试设置crons来捕获和追加每分钟prstat,iostat,vmstat,sar等的输出到一个文件,试图看看是什么造成这一点,但我们看到的是,机器是罚款,然后一切似乎停止。

我们也在Cacti中绘制指标,没有看到任何东西。 就像我说的一切正常,然后数据就停止了。

昨天晚上又发生了这个问题,我们发现在“最后”的输出中,机器似乎开始closures几个小时,然后它变得没有反应(没有人closures),这里是输出:

重启系统启动Tue Nov 23 17:24 < – 这里是我重新启动它的地方。 重启系统Down Tue Nov 23 15:01

DRAC中没有环境或机箱警报。

我已经检查过可能会closures服务器的任何crons等,没有看到任何东西。 我想启用审计,但需要重新启动,这是一个主要的生产系统。

任何人可以提供任何build议?

戴尔R610 Solaris 10 5/09 s10x_u7wos_08 X86

谢谢,

巴蒂尔

发现如果我进入BIOS-> CPU设置和禁用C设置服务器不再崩溃。 现在已经有一个多月的时间了,而其他没有设置标志的服务器仍然崩溃。

在运行Solaris 10 9/10 s10x_u9wos_14a的Dell R410上,我具有这种确切的行为。

我发现这个线程,导致我认为我应该使用broadcom驱动程序,而不是我的安装Solaris。 http://opensolaris.org/jive/thread.jspa?messageID=491917 http://forums.oracle.com/forums/thread.jspa?threadID=1924459&tstart=15

我将在本周末尝试安装它,但是如你所知,只有时间才能说明,因为在问题发生之前绝对没有任何问题的痕迹。

fmdump -e fmdump:/ var / fm / fmd / errlog的输出为空。

首先要检查的是 – 你是否运行最新的补丁程序和更新的硬件固件? 你在主机上运行了哪些软件,并且已经应用​​了最新的补丁? 主机是否有足够的清洁能源和冷却?

检查HCL后,Dell R610在OpenSolaris和Solaris 11 Express上通过了authentication ,但没有提到Solaris 10。

心连心。