I / O等待的高负载平均值

我的服务器每隔几分钟就会遇到非常高的负载平均峰值(> 10,有时甚至> 20)。

顶部显示CPU没有在使用,但正在等待I / O操作:

top - 17:42:28 up 8 days, 8:10, 1 user, load average: 9.01, 10.16, 6.54 Cpu0 : 0.0%us, 0.0%sy, 0.0%ni, 0.0%id,100.0%wa, 0.0%hi, 0.0%si, 0.0%st Cpu1 : 0.0%us, 0.0%sy, 0.0%ni, 0.0%id,100.0%wa, 0.0%hi, 0.0%si, 0.0%st 

dmesg一遍又一遍地显示这个输出(我不明白这是什么意思):

 ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 ata2.00: BMDMA stat 0x26 ata2.00: cmd ca/00:08:74:c4:24/00:00:00:00:00/ef tag 0 dma 4096 out res 51/84:01:7b:c4:24/84:00:10:00:00/ef Emask 0x30 (host bus error) ata2.00: status: { DRDY ERR } ata2.00: error: { ICRC ABRT } ata2: soft resetting link ata2.00: configured for UDMA/33 ata2: EH complete sd 3:0:0:0: [sdb] 625142448 512-byte hardware sectors (320073 MB) sd 3:0:0:0: [sdb] Write Protect is off sd 3:0:0:0: [sdb] Mode Sense: 00 3a 00 00 sd 3:0:0:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA 

有任何想法吗?

有服务器上运行的FreeRADIUS,我怀疑是无论是networking适配器的RADIUS可能导致的问题。 在某些尖峰期间tcpdump显示正在发送/接收RADIUS数据包的数量增加(但我说的是每分钟几十个包,而不是数千个)。

当我停止RADIUS情况变得更好,但仍然有周期性负载平均峰值(虽然更容忍)。

有没有人有一个想法是什么可能会导致这种行为,我怎么能确定它是RADIUS,networking适配器,还是别的?

谢谢

不,这是一个磁盘或磁盘控制器死亡。 这与您正在运行的软件或networking适配器无关。

如果您还没有进行备份 – 请现在制作备份并开始寻找更换硬件。

SU上发布了一个几乎相同的问题

在重新启动或修改设置之前 – 尽快执行备份(并检查它!)尽快。