诊断高CPU等待

我有一个运行icinga / collectd /石墨约50台主机的监控服务器。 我注意到箱子上的高负载/猛击性能。 如果你看一下顶部,你会看到:

Cpu:0.6%us,0.2%sy,0.0%ni,7.6%id,23.4%wa,0.0%hi,0.2%si,0.0%st

注意HUGE%wa值,据我所知,这意味着networking或磁盘瓶颈。 ifconfig显示没有丢包,没有大量的带宽,所以会留下磁盘问题,对不对? 没有太多的磁盘写入正在进行… iotop报告,我们只写了一点点每秒超过1 MB和RAID工具报告一切正常,写入caching启用。

我怎么去试图找出如何解决这个问题?

更新:iostat -x输出是:

avg-cpu: %user %nice %system %iowait %steal %idle 0.62 0.10 0.31 9.65 0.00 89.31 Device: rrqm/s wrqm/sr/sw/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util sda 0.21 33.34 83.55 16.54 1599.94 399.07 19.97 43.21 416.98 3.71 37.13 

I / O等待也由NFS,SMB和其他远程文件系统产生。

使用vmstat 2查看系统性能的详细视图,包括io等待。

高一般意味着操作系统正在等待networking或磁盘。 有一个相当漂亮的程序叫iotop 。 这告诉你什么是磁盘,可能是一些帮助。

似乎你可能会遇到一些间歇性的高CPU使用率…