诊断高CPU等待

我有一个运行icinga / collectd /石墨约50台主机的监控服务器。我注意到箱子上的高负载/猛击性能。如果你看一下顶部，你会看到：

Cpu：0.6％us，0.2％sy，0.0％ni，7.6％id，23.4％wa，0.0％hi，0.2％si，0.0％st

注意HUGE％wa值，据我所知，这意味着networking或磁盘瓶颈。 ifconfig显示没有丢包，没有大量的带宽，所以会留下磁盘问题，对不对？没有太多的磁盘写入正在进行… iotop报告，我们只写了一点点每秒超过1 MB和RAID工具报告一切正常，写入caching启用。

我怎么去试图找出如何解决这个问题？

更新：iostat -x输出是：

avg-cpu: %user %nice %system %iowait %steal %idle 0.62 0.10 0.31 9.65 0.00 89.31 Device: rrqm/s wrqm/sr/sw/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util sda 0.21 33.34 83.55 16.54 1599.94 399.07 19.97 43.21 416.98 3.71 37.13

I / O等待也由NFS，SMB和其他远程文件系统产生。

使用vmstat 2查看系统性能的详细视图，包括io等待。

高一般意味着操作系统正在等待networking或磁盘。有一个相当漂亮的程序叫iotop 。这告诉你什么是磁盘，可能是一些帮助。

似乎你可能会遇到一些间歇性的高CPU使用率…