什么可以解释超线程引起服务器瘫痪

在去年,我有两台全新的服务器,我们委托他们的performance使他们无法使用。 这两台服务器都是带有一个处理器的戴尔R620服务器。 一个拥有6个内核,另一个拥有8个。其中一个拥有SLES 11SP3和Oracle,另一个拥有Windows 2008 R2。

Windows服务器从我安装操作系统的那一刻起就很慢。 对于从启动到应用程序使用的所有内容,我都感到非常震惊,但在CPU,磁盘,内存等任何性能计数器中都没有出现任何明显的症状。 我无法量化速度慢,但我会描述,如果我已经在10年前或更早的机器上安装操作系统。 我终于通过摆弄BIOS设置和禁用超线程来修复它。 只要我把它关掉,服务器就起飞了。 我估计会有10倍的性能提升。

Linux服务器更奇怪。 有了它,服务器最初工作了3或4周。 然后,有一天晚上,没有任何明显的触发,CPU使用率突然从平均水平的4%左右疯狂上升了20-60%。 到处都是。 同时Oracle连接时间从100ms到500ms。 总的来说,甲骨文的performance非常糟糕,以至于我们的生产stream程受到了影响,而且我们也不会在数据库上投入太多的负担。 DBA和我花了12个小时以上,没有任何可以解释的问题。 我使用top和Gnome系统监视器来查看系统,CPU跟踪从0-100%完全混乱。 我们重新启动了几次,启动时间大概是2-3倍。 这个问题终于修复了,无奈之下,我禁用了BIOS中的HT。 魔法。 一切都是固定的。

我的问题是,有其他人经历过这个? 我已经用Googlesearch了很多,人们只是谈论相对较小的性能影响,好的和坏的,但是和我所看到的一样。 我现在完全害怕HT,并已经把它作为默认,在新的版本上禁用它。 还有什么我不明白,可能会导致这一点?

这可能是实际有缺陷的硬件?

编辑:shodanshokbuild议下面这可能实际上是一个电源configuration文件的问题。 这个问题今天再次发生,即使HT被禁用。 我进入了BIOS设置,在“系统configuration文件”下find了省电设置。 它被默认为“每瓦性能”。 我改变了“性能”,问题又一次消失了。 很难确认这是一个最终的解决办法,单靠重新启动本来可以打乱这个问题,但是我对此感觉不错。 我稍后再跟进。

编辑2:确认。 我至less再看到过这个问题两次,但在另外两台服务器上。 在所有情况下,通过将“系统configuration文件”更改为“性能”来解决这个问题。 我没有看到任何服务器上的这个问题重复发生变化后。

在最新的戴尔服务器上,我发现基于BIOS的节能逻辑非常糟糕(如果不是简单的话)。 尝试禁用它,设置服务器以获得最佳性能,并使节能在操作系统控制下,而不是BIOS。

然后尝试重新启用超线程。