我有一个文件服务器(6.3),今天突然放缓。 挂载它的集群可以毫无问题地访问其他NFS挂载,但访问这个非常慢。 通过sshlogin也非常慢(idrac虚拟控制台没有信号 – 也许是一个不同的问题)。
在服务器上运行iostat -x 5并没有显示任何问题。 'await'大部分是0,有时达到2,%util大部分是0,有时达到3,很less是5.据我所知,这表明没有明显的io问题?
在服务器上运行显示,除了CPL平均值在14-17范围之外,没有什么特别的,而在30分钟内CPU使用率始终在3200%的100-200%之间,的东西。 在输出之下。
一个关于CPL的问题可能与此有关:系统是超线程的,因此当有16个物理内核(2×8)时显示32个CPU。 CPL仅适用于物理内核,还是适用于超线程虚拟内核(如果是这个术语)? 14-17的CPL应该罚款,如果后者,而不是前者。 但无论哪种情况,我都不明白为什么CPL看起来和CPU不一样。
感谢您的任何想法。
PRC | sys 10.70s | user 0.18s | #proc 2846 | #tslpu 9 | #zombie 0 | #exit 6 | CPU | sys 107% | user 2% | irq 0% | idle 3094% | wait 0% | curscal ?% | CPL | avg1 14.86 | avg5 17.50 | avg15 17.52 | csw 4265 | intr 31460 | numcpu 32 | MEM | tot 31.3G | free 128.6M | cache 25.2G | dirty 94.9M | buff 165.6M | slab 2.1G | SWP | tot 1.0G | free 960.8M | | | vmcom 5.4G | vmlim 16.6G | LVM | rt-lv_export | busy 0% | read 0 | write 35 | MBw/s 0.02 | avio 0.00 ms | DSK | sda | busy 0% | read 0 | write 10 | MBw/s 0.01 | avio 0.30 ms | DSK | sdb | busy 0% | read 0 | write 25 | MBw/s 0.02 | avio 0.00 ms | DSK | sdc | busy 0% | read 0 | write 9 | MBw/s 0.00 | avio 0.00 ms | NET | transport | tcpi 25 | tcpo 22 | udpi 0 | udpo 0 | tcpao 0 | NET | network | ipi 37 | ipo 27 | ipfrw 0 | deliv 25 | icmpo 0 | NET | pem3 0% | pcki 299 | pcko 0 | si 16 Kbps | so 0 Kbps | erro 0 | NET | pem1 0% | pcki 57 | pcko 12 | si 3 Kbps | so 1 Kbps | erro 0 | NET | em1 ---- | pcki 57 | pcko 12 | si 2 Kbps | so 1 Kbps | erro 0 | PID TID RUID THR SYSCPU USRCPU VGROW RGROW RDDSK WRDSK ST EXC S CPUNR CPU CMD 1/3 20539 - root 1 1.09s 0.00s 0K 0K 0K 0K -- - D 7 11% nfsd 20544 - root 1 1.01s 0.00s 0K 0K 0K 0K -- - D 1 10% nfsd 356 - root 1 0.99s 0.00s 0K 0K 0K 0K -- - D 25 10% kswapd1 20545 - root 1 0.93s 0.00s 0K 0K 0K 0K -- - R 2 9% nfsd 20546 - root 1 0.93s 0.00s 0K 0K 0K 0K -- - D 4 9% nfsd 355 - root 1 0.90s 0.00s 0K 0K 0K 0K -- - R 22 9% kswapd0 20540 - root 1 0.87s 0.00s 0K 0K 0K 0K -- - D 26 9% nfsd 20541 - root 1 0.86s 0.00s 0K 0K 0K 0K -- - D 30 9% nfsd 1170 - root 1 0.84s 0.00s 0K 0K 0K 0K -- - D 6 8% cook-news 20542 - root 1 0.83s 0.00s 0K 0K 0K 0K -- - D 22 8% nfsd 20543 - root 1 0.83s 0.00s 0K 0K 0K 0K -- - D 6 8% nfsd 536 - root 1 0.40s 0.14s 0K 0K 0K 0K -- - R 19 5% atop 1650 - root 0 0.16s 0.04s 0K 0K - - NE 1 E - 2% <ps> 5798 - root 47 0.01s 0.00s 0K 0K 0K 4K -- - S 13 0% dsm_om_connsvc 4944 - root 1 0.01s 0.00s 0K 0K 0K 0K -- - S 13 0% snmpd 138 - root 1 0.01s 0.00s 0K 0K 0K 0K -- - S 7 0% events/7 139
CPL是反映可在CPU上运行的线程(即runqueue的一部分)或等待磁盘I / O的线程数的平均负载数字。 你好像有16个进程似乎在等待磁盘。 这就是你看到CPU大部分闲置的原因,除了等待磁盘之外没有任何其他的工作要做。
我会检查这个系统的磁盘,检查dmesg的磁盘错误,smartctl属性和日志,也运行一个简短的自检。 我认为这可能是你的问题,因为磁盘读写速度非常低。
也许一个团队正在退化模式或重build。