I / O等待的高负载平均值

我的服务器每隔几分钟就会遇到非常高的负载平均峰值（> 10，有时甚至> 20）。

顶部显示CPU没有在使用，但正在等待I / O操作：

top - 17:42:28 up 8 days, 8:10, 1 user, load average: 9.01, 10.16, 6.54 Cpu0 : 0.0%us, 0.0%sy, 0.0%ni, 0.0%id,100.0%wa, 0.0%hi, 0.0%si, 0.0%st Cpu1 : 0.0%us, 0.0%sy, 0.0%ni, 0.0%id,100.0%wa, 0.0%hi, 0.0%si, 0.0%st

dmesg一遍又一遍地显示这个输出（我不明白这是什么意思）：

 ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 ata2.00: BMDMA stat 0x26 ata2.00: cmd ca/00:08:74:c4:24/00:00:00:00:00/ef tag 0 dma 4096 out res 51/84:01:7b:c4:24/84:00:10:00:00/ef Emask 0x30 (host bus error) ata2.00: status: { DRDY ERR } ata2.00: error: { ICRC ABRT } ata2: soft resetting link ata2.00: configured for UDMA/33 ata2: EH complete sd 3:0:0:0: [sdb] 625142448 512-byte hardware sectors (320073 MB) sd 3:0:0:0: [sdb] Write Protect is off sd 3:0:0:0: [sdb] Mode Sense: 00 3a 00 00 sd 3:0:0:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA

有任何想法吗？

有服务器上运行的FreeRADIUS，我怀疑是无论是networking适配器的RADIUS可能导致的问题。在某些尖峰期间tcpdump显示正在发送/接收RADIUS数据包的数量增加（但我说的是每分钟几十个包，而不是数千个）。

当我停止RADIUS情况变得更好，但仍然有周期性负载平均峰值（虽然更容忍）。

有没有人有一个想法是什么可能会导致这种行为，我怎么能确定它是RADIUS，networking适配器，还是别的？

谢谢

不，这是一个磁盘或磁盘控制器死亡。这与您正在运行的软件或networking适配器无关。

如果您还没有进行备份 – 请现在制作备份并开始寻找更换硬件。

SU上发布了一个几乎相同的问题