试图在这里发布这个问题。 我已经把它贴在Ubuntu论坛上,也没有回复。
最近,我将一台HP ProLiant DL380 G4服务器从Ubuntu 10.04服务器升级到Ubuntu 12.04服务器。
一旦这样做,服务器将不会 – 随机时间 – 达到400+的负载,然后变得完全不响应。 我使用一个SNMPgraphics程序(cacti),负载稳定地每五分钟增加10,直到它超过400,停止绘图。
图表可能并不准确,但在这种情况发生之前,CPU负载平均为3%左右 – 当负载开始增加时,它会在15分钟内跳到25%左右,然后急剧下降到不到1%(约为0.3%)直到图表停止。
我无法打开到服务器的SSH隧道来做任何事情。 我已经检查了/ var / log / syslog以及当时所有的日志logging停止 – 没有其他的东西在那里。
奇怪的是 – 服务器仍然在这段时间内响应DNS授权的域名查询,并且速度正常。
只是不知道下一步将是什么,以了解正在发生什么 – 以及如何纠正这个问题。 服务器不能留在Ubuntu 10.04服务器,需要保持升级。
这将是一个I / O相关的问题,因为磁盘和所有写入活动停止。 内核和networking堆栈在RAM中运行,因此服务器是可以ping通的。
我要检查的主要内容是系统的BIOS /固件以及系统上Smart Array控制器的固件版本。 这是一款旧式 ProLiant DL380 G4(大约在2005年),因此您可以安装板载Smart Array 6i控制器,Smart Array 641控制器或Smart Array 6400系列控制器。
你能告诉我们更多吗?
负载急剧上升是由于进程被阻塞等待I / O。 你不会说系统上运行的是什么types的应用程序,但似乎你可能已经有380多个进程正在等待磁盘:)
– 编辑 –
所以,多年来我部署了很多服务器。 你有权访问固件? 您是否正在运行HPpipe理代理 ? 这会让你更深入地了解你在这里所需要的东西,并获得适当的驱动程序。
最后…这是真正的老装备…你会考虑升级吗?
请参阅: HP Proliant DL380 G4 – 该服务器在2011年仍可以运行吗?
– 编辑 –
试试# modinfo cciss并发布结果。
[root@MDMarra ~]# modinfo cciss filename: /lib/modules/2.6.32-279.14.1.el6.x86_64/kernel/drivers/block/cciss.ko license: GPL version: 3.6.28 description: Driver for HP Smart Array Controllers author: Hewlett-Packard Company srcversion: 712C176F5D360D8C1166F22