问题与我的Powerge 2970

我工作的公司刚买了3台PowerEdge 2970服务器,它们都有同样的问题。

  1. 这台服务器值得购买,还是与它的问题,使它不值得吗?
  2. 使用AMD处理器(这是一个Opteron)有很多问题吗?
  3. 如果我详细说明在事件日志中出现哪些错误,您是否能够指出问题?

这是问题:

1.在服务器上启动。 它启动到红帽子启animation面。
2.在启动过程中,服务器崩溃,出现以下错误:

-CPU Machine Chk: processor sensor, transition to non-recoverable was asserted -PCI Parity Err: critical event sensor, PCI PERR (BUS 0 DEVICE 1 FUNC 0) 

然后我试图更新BIOS和BMC,但问题仍然存在。 之后,我尝试将操作系统(Red Hat Enterprise 5.1)升级到Red Hat 5.3。 我使用构build和更新实用程序启动服务器,然后select安装操作系统。 我select了红帽企业5.3 x86_64。 它询问我为x86_64媒体,所以我把光盘说:64位AMD64和英特尔64补充光盘1(1)。它说错了光盘。 于是我用光盘说:64位Intel Itanium的安装光盘1(1)。 我的猜测是这就是我一直需要使用的光盘。

在此之后,系统可以启动到命令行login屏幕。 我login并键入:startx进入gui环境。 在这一点上,less于一页的文本滚动速度快,服务器崩溃,没有显示任何gui相关。

那时我有两个不同的错误(现在注意这个设备是4,会检查它是哪个设备):

 -PCI Parity Err: critical event sensor, PCI PERR (BUS 0 DEVICE 4 FUNC 0) -PCI Sytem Error:critical event sensor, PCI SERR(BUS 0 DEVICE 4 FUNC 0) 

所以今天技术人员带来了一大堆零件,基本上在现场重build了服务器(PCI立pipe,主板,DIMM,SAS卡和其他我不能从头顶上find的东西),但之后问题甚至更差。 这些错误中的一些是(当时你要注意,他把一些原来的部分放回原处,所以事情变得很糟糕):

ECC uncorr错误:内存传感器,不可纠正的ECC(DIMM1 DIMM2)被置位。
E1231 1.2V HT核心电源GD
E1911 <3错误检查日志
E1000故障安全

明天他会回来一个电源…

更新:似乎我不能再浪费时间了。 我们打电话给销售人员,并要求新的服务器。

最近我遇到了与戴尔类似的问题。 技术支持似乎不能直接将错误与失败的部分联系起来。 很多时候,他们只是发出我喜欢称之为“我不知道什么是错误的零件包”。 通常包括Systemboard,PCI riser,更换内存,有时还有更换的CPU和RAID控制器。

他们经常忘记replace的一件事是集成PERC卡的提升器。 我已经看到这是几次的问题。

无论如何,正如我以前评论,除非你急于部署这些服务器,我会联系戴尔客户服务,并要求所有三台服务器被更换或退还。

之前我已经看到这个坏的RAID卡。 我会build议

1)拉你所有的卡,看看它是否可以启动,更重要的是:

2)打电话给戴尔。 他们的企业技术支持是非常好的,说实话,这听起来像是你有一个硬件错误。

至于你的问题…
1)这完全是主观的
2)皓龙应该和英特尔一样可靠
3)你需要先问问题

至于你发布的问题,如果你想排除故障(这听起来像一个内存错误信息 – PCI总线和设备号码应该告诉你具体),我会开始运行Memtest的 。 另一方面,我只是坚持要求支持代表解决他们卖给你的服务器的问题。

先排除操作系统吧。 尝试安装Windows服务器。 Windows拥有最广泛的驱动程序支持。 如果Windows甚至无法安装,那么您肯定知道可能存在某些硬件故障。 如果你没有这个副本,那么在我所知的大多数硬件上,ubuntu服务器都能正常工作。

我们有一台服务器,拒绝安装一个非常常见的Linux发行版。 只要我把Ubuntu服务器,它第一次工作。 也许在某些时候Redhat在那里工作,但内核更新不成功?

您可能也想尝试将BIOS设置为默认值。 另外尝试重新初始化RAID驱动器并重新设置备份。

  1. 打电话给戴尔 – 如果服务器在保修期内,他们应该容易地排除这些错误
  2. 如果您没有保修服务,您仍然可以致电Dell进行故障排除并确定需要更换的部件
  3. 此错误通常表示CPU或MB有问题。 如果您有多个CPU,请尝试使用第一个插槽中的单个CPU启动系统。 如果失败,请尝试与另一个CPU相同。 此外,一般来说,将系统剥离到最低限度的硬件configuration(这将允许其进行POST)总是好的,这意味着移除所有HDD,控制器和外围设备,只留下单个CPU和内存DIMM,如果没有帮助,你可能有一个MB的问题。 如果min2POSTconfigurationPOSTS成功,开始添加部分回来,直到你遇到错误 – 这将帮助你找出违规的部分

我会再次testing一个不同的操作系统的build议,但是我现在在这个练习中真正做的是在我的销售代表处大声说出我希望如何replace这些服务器的电话。 您刚刚购买了这些产品,它们都是全新的,因此应该由戴尔根据消费者法律负有法律义务的标准销售保修条款予以保障,而不考虑您select的维护/支持计划。

它在我看来好像是在这里给你一个乱七八糟的东西,我认为你已经忍受了。 现在是时候知道 – 好设备英寸