每隔几周,我们的一台Solaris 10服务器就无法响应。 我可以telnet到22端口,并获得SSH横幅,但我无法build立一个SSH连接。 这是戴尔R610,所以我通过DRAC控制台login,虽然我可以按Enter键并获得一个新的线路,但每当我尝试运行一个命令,如“Prstat”控制台挂起,我无法控制C或其他任何东西。 我也无法发送一个CTRL-ALT-DEL来重新启动,并且不得不最终进行一个远程硬盘重启。
没有什么奇怪的日志出现,我们已经尝试设置crons来捕获和追加每分钟prstat,iostat,vmstat,sar等的输出到一个文件,试图看看是什么造成这一点,但我们看到的是,机器是罚款,然后一切似乎停止。
我们也在Cacti中绘制指标,没有看到任何东西。 就像我说的一切正常,然后数据就停止了。
昨天晚上又发生了这个问题,我们发现在“最后”的输出中,机器似乎开始closures几个小时,然后它变得没有反应(没有人closures),这里是输出:
重启系统启动Tue Nov 23 17:24 < – 这里是我重新启动它的地方。 重启系统Down Tue Nov 23 15:01
DRAC中没有环境或机箱警报。
我已经检查过可能会closures服务器的任何crons等,没有看到任何东西。 我想启用审计,但需要重新启动,这是一个主要的生产系统。
任何人可以提供任何build议?
戴尔R610 Solaris 10 5/09 s10x_u7wos_08 X86
谢谢,
巴蒂尔
发现如果我进入BIOS-> CPU设置和禁用C设置服务器不再崩溃。 现在已经有一个多月的时间了,而其他没有设置标志的服务器仍然崩溃。
在运行Solaris 10 9/10 s10x_u9wos_14a的Dell R410上,我具有这种确切的行为。
我发现这个线程,导致我认为我应该使用broadcom驱动程序,而不是我的安装Solaris。 http://opensolaris.org/jive/thread.jspa?messageID=491917 http://forums.oracle.com/forums/thread.jspa?threadID=1924459&tstart=15
我将在本周末尝试安装它,但是如你所知,只有时间才能说明,因为在问题发生之前绝对没有任何问题的痕迹。
fmdump -e fmdump:/ var / fm / fmd / errlog的输出为空。
首先要检查的是 – 你是否运行最新的补丁程序和更新的硬件固件? 你在主机上运行了哪些软件,并且已经应用了最新的补丁? 主机是否有足够的清洁能源和冷却?
检查HCL后,Dell R610在OpenSolaris和Solaris 11 Express上通过了authentication ,但没有提到Solaris 10。
心连心。