kvm – cpu内核禁用并启用循环

在我们使用KVM的虚拟化服务器上​​,cpu核心在10分钟后禁用并启用循环(对于所有虚拟机,每次禁用都会挂起15秒)。

它发生在一个星期前的雷雨,当所有虚拟服务器由于数据磁盘错误而被挂起(系统磁盘正常)。 所以我们改变了数据磁盘。 接下来,我们尝试将升级主机系统从ubuntu natty(内核2.6)升级到ubuntu精确(3.2),没有任何改变。

我发现只有一个论坛,没有解决schemehttp://ubuntuforums.org/showthread.php?p=12071553

我试图切换kvmdebugging

/sys/kernel/debug/tracing/trace_pipe 

并在系统日志中的内核时间find确切的地方,但我不忍受日志,没有看到任何重要的区别

我认为这可能是来自主板的一些不好的信号。 由于磁盘错误,可能会发生一些与主板,但我不知道如何find

syslog部分有一个禁用/启用循环

  Jul 14 15:36:44 node-01 kernel: [56713.568733] kvm: disabling virtualization on CPU1 Jul 14 15:36:44 node-01 kernel: [56713.668842] CPU 1 is now offline Jul 14 15:36:44 node-01 kernel: [56713.670835] CPU 3 MCA banks CMCI:2 CMCI:3 CMCI:5 Jul 14 15:36:44 node-01 kernel: [56713.673771] kvm: disabling virtualization on CPU2 Jul 14 15:36:44 node-01 kernel: [56713.674492] CPU 2 is now offline Jul 14 15:36:44 node-01 kernel: [56713.680172] kvm: disabling virtualization on CPU3 Jul 14 15:36:44 node-01 kernel: [56713.681114] CPU 3 is now offline Jul 14 15:36:44 node-01 kernel: [56713.681119] SMP alternatives: switching to UP code Jul 14 15:36:44 node-01 kernel: [56713.701971] init: anacron main process (3613) killed by TERM signal Jul 14 15:36:44 node-01 kernel: [56713.709803] r8169 0000:01:00.0: eth0: link down Jul 14 15:36:44 node-01 kernel: [56713.710421] br0: port 1(eth0) entering forwarding state Jul 14 15:36:47 node-01 kernel: [56716.675313] r8169 0000:01:00.0: eth0: link up Jul 14 15:36:47 node-01 kernel: [56716.676438] br0: port 1(eth0) entering forwarding state Jul 14 15:36:47 node-01 kernel: [56716.676454] br0: port 1(eth0) entering forwarding state Jul 14 15:36:56 node-01 kernel: [56725.666787] br0: port 1(eth0) entering forwarding state Jul 14 15:37:02 node-01 kernel: [56730.815937] SMP alternatives: switching to SMP code Jul 14 15:37:02 node-01 kernel: [56730.825021] Booting Node 0 Processor 1 APIC 0x4 Jul 14 15:37:02 node-01 kernel: [56730.825025] smpboot cpu 1: start_ip = 9a000 Jul 14 15:37:02 node-01 kernel: [56730.836033] Calibrating delay loop (skipped) already calibrated this CPU Jul 14 15:37:02 node-01 kernel: [56730.837012] kvm: enabling virtualization on CPU1 Jul 14 15:37:02 node-01 kernel: [56730.858555] NMI watchdog enabled, takes one hw-pmu counter. Jul 14 15:37:02 node-01 kernel: [56730.862547] Booting Node 0 Processor 2 APIC 0x1 Jul 14 15:37:02 node-01 kernel: [56730.862551] smpboot cpu 2: start_ip = 9a000 Jul 14 15:37:02 node-01 kernel: [56730.873460] Calibrating delay loop (skipped) already calibrated this CPU Jul 14 15:37:02 node-01 kernel: [56730.874453] kvm: enabling virtualization on CPU2 Jul 14 15:37:02 node-01 kernel: [56730.896371] NMI watchdog enabled, takes one hw-pmu counter. Jul 14 15:37:02 node-01 kernel: [56730.898581] Booting Node 0 Processor 3 APIC 0x5 Jul 14 15:37:02 node-01 kernel: [56730.898586] smpboot cpu 3: start_ip = 9a000 Jul 14 15:37:02 node-01 kernel: [56730.909496] Calibrating delay loop (skipped) already calibrated this CPU Jul 14 15:37:02 node-01 kernel: [56730.910227] kvm: enabling virtualization on CPU3 Jul 14 15:37:02 node-01 kernel: [56730.930644] NMI watchdog enabled, takes one hw-pmu counter. Jul 14 15:37:02 node-01 kernel: [56730.963737] r8169 0000:01:00.0: eth0: link down Jul 14 15:37:02 node-01 kernel: [56730.964069] br0: port 1(eth0) entering forwarding state Jul 14 15:37:04 node-01 kernel: [56733.432535] r8169 0000:01:00.0: eth0: link up Jul 14 15:37:04 node-01 kernel: [56733.433808] br0: port 1(eth0) entering forwarding state Jul 14 15:37:04 node-01 kernel: [56733.433823] br0: port 1(eth0) entering forwarding state Jul 14 15:37:13 node-01 kernel: [56742.424751] br0: port 1(eth0) entering forwarding state 

感谢您的任何提示,如何find一个错误。

在我们的情况下,这种行为开始后磁盘错误(和以前的雷暴也许电涌)。 所以我不知道是否有一些主板关于频率/功耗/睡眠等不良信号,或者是pm-utils的configuration不好。

卸载软件包pm-utils,解决了这个问题。

之前,我们尝试从ubuntu natty(kernel 2.6)升级发行版到ubuntu precise(kernel 3.2),但没有成功。

我试过的其他事情是禁用启用/禁用cpu核心(通过/ sys / devices / system / cpu / cpu * /在线文件)的可能性。

有内核选项nr_cpus =可以设置为使用的处理器(核心)的数量。 设置这应该禁用cpu的热插拔。 但在我的情况下,设置为grub引导参数后,它没有任何影响(而不是丢失/ sys / devices / system / cpu / cpu * /在线文件)。

 nr_cpus = [SMP] Maximum number of processors that an SMP kernel could support. nr_cpus=n : n >= 1 limits the kernel to supporting 'n' processors. Later in runtime you can not use hotplug cpu feature to put more cpu back to online. just like you compile the kernel NR_CPUS=n