我们经常在我们的服务器上使DIMM发生故障,并在syslog中出现以下错误: 5月7日09:15:31 nolcgi303内核:EDAC k8 MC0:一般总线错误:参与处理器(本地节点响应),超时(无超时)内存事务types(通用读取),内存或I / O(内存访问) ,caching级别(通用) 5月7日09:15:31 nolcgi303内核:MC0:CE页面0xa0,偏移量0x40,谷物8,症状0xb50d,第2行,通道0,标签“”:k8_edac 5月7日09:15:31 nolcgi303内核:MC0:CE – 无可用信息:k8_edac错误溢出设置 5月7日09:15:31 nolcgi303内核:EDAC k8 MC0:扩展错误代码:ECC chipkill x4错误 我们可以使用HP SmartStart CD来确定哪个DIMM出现错误,但需要将服务器停止生产。 有一个狡猾的方法来确定在服务器启动时哪个DIMM崩溃了吗? 我们所有的服务器都是运行RHEL 5的HP硬件。
什么原因导致硬盘故障。 我想知道这些常见原因,以及如何预防这种情况。
我将把我的数据库服务器移到一些更好的新硬件上。 当前的数据库服务器除了运行Centos 4之外没有任何问题。当前的硬件是2个四核至强5335,4个15K RPM的RAID 10和4GB(是的,实际上只有4GB)的内存。 我的预算中的硬件select几乎没有价格差异,在RAID 10中将具有相同的4个15K RPM硬盘驱动器。它们是: 2四核至强5335与8GB 533/667 2hex核心至强2620与16GB 1333 4个双核心opteron 8212与8GB 667 1个8核心至强2650 8GB 1333 1个四核至强3460与16GB 1333 排除硬盘驱动器,数据库服务器的重要部分的顺序是什么? 是这样的:内存大小,内存速度,核心,然后caching大小?
我在哪里可以购买一台512 GB的服务器,是GB的内存? 我见过的最多的是256 GB(每根32个DIMM x 8 GB)
我们有几个主机,我们有一个相同的热备份主机,这是修补和更新,所以它是非常接近,必须相同的软件和configuration。 如果发生故障,网线将切换,DHCP服务器将更新为新的MAC地址。 这是最好的情况,因为通常需要修改一些。 我觉得有一个热备用主机,浪费时间来维护它是浪费电力的,而且由于在故障切换时需要修改configuration,所以我想问一下: 热的东西是老派,现在有更好的办法吗? 如果没有热备份主机,将它作为一个冷备用磁盘是有意义的,把硬盘驱动器放在主要主机,并将RAID从1更改为1 + 1。 如果出现故障,我只能更换网线,更新DHCP服务器,取出硬盘并插入冷备用并打开电源。 我所看到的好处是2×2磁盘总是保持同步,所以只有一个主机可以维护,不需要更改configuration。 这是一个好主意吗?
平均无故障时间可能难以解释,但是如果您有一些硬数据,则可以使用大量的统计方法。 麻烦的是,没有人再报告他们的MTBF号码。 (无论如何,硬盘制造商除外) 你去哪里去找组件和服务器的MTBF数据?
我花了很多时间在HP ProLiant系统和Linux安装上。 由于我工作的业务性质,我不能同时部署大量相同的系统。 另外,我的系统分布在多个地点。 我的许多服务器都是类似的,但是安装过程非常迅速,只需要足够的时间来查看系统configuration,处理器步进,固件版本和其他function的变化。 所以,即使我有一个合理快速的kickstart系统需要5-10分钟,我花了45分钟的时间来升级服务器硬件。 1)。 假设我有我想要的磁盘和物理组件,我开始安装固件DVD和/或SmartStart来configurationSmartArray逻辑驱动器和控制器设置。 根据应用程序的不同,我需要更好地控制SmartArray,而不是BIOS实用程序允许的。 固件更新很有帮助,因为服务器可能随旧版本一起发货。 有时,我将在安装操作系统之后运行固件更新。 2)。 国际劳工组织设置 国际劳工组织的参数需要设置。 pipe理员密码更改,安装的ILO密钥,SNMP参数修改…我通常会在控制台执行此操作,或者在DHCP列表中findILO并远程连接。 3)。 我需要在我pipe理的系统上进行特定的BIOS更改。 例如,closures超线程,设置电源configuration文件,进入高级BIOS菜单启用低延迟设置,减lessASR超时,设置时间… 鉴于上述说明,我怎样才能简化这个过程呢? 所有这些东西都可以编写脚本吗? 大型无头安装环境中的工程师如何做到这一点? 更重要的是,你怎样才能跟踪这些参数或强制一系列的改变?
作为configuration服务器的一部分,我们运行HP的Insight Diagnostics来testing硬件。 这是一个手动过程。 有没有办法自动运行Insight Diagnostics? hpdiags软件的选项是“-rd:”运行所有可诊断设备的诊断。 从我的testing中,这并没有太大的作用(它只是从磁盘读取SMART信息)。 有没有人有更好的运气? 硬件:采用HP ProLiant BL460c刀片DL360的BladeCenter c7000。 操作系统:ESXi和Ubuntu。
在过去的几天里,我一直在内部networking上为less数最终用户追逐丢包和networking稳定性问题……这些问题上周浮出水面,但是这个位置在六个星期前被闪电击中 。 我看到一堆四个Cisco 2960和一个77米长的另一端的几台电脑和手机之间有5-10%的数据包丢失。 PC通过中继链路( switchportconfigurationpastebin )与电话内联运行。 我们看到客户端服务器应用程序和Microsoft Exchange连接中断电话和中断。 我尝试了远程的常见故障排除步骤,让本地技术人员在用户和生产活动rest期间执行以下操作: 更换墙上的插孔和设备之间的电缆。 更换配线架和交换机端口之间的跳线。 尝试2960堆栈内的不同交换机端口。 用已知好的设备(新手机,不同的PC)更换terminal用户设备。 清除交换机端口接口计数器和密切监视增量错误。 ( sh int Pastebin输出 ) 钻研设备日志和Observium RRD图表 。 从交换机端没有链路up / down问题。 更换最终用户端的电源条。 testing电缆从Cisco 2960运行,使用test cable-diagnostics tdr int Gi4/0/9 (clean)* testing电缆使用Tripp-Lite电缆testing仪运行。 (清洁) 在交换机堆栈成员上运行诊断程序。 (清洁) 最后,三个交换机端口的变化find了一个稳定的解决scheme。 唯一合乎逻辑的结论是,一些Cisco 2960交换机端口是坏的或片状的…没有死亡,但在行为上也不一致。 我不习惯看到个别端口以这种方式死亡。 还有什么我可以testing或检查,以确定这些设备是否坏? 什么是最佳实践方法来validation这一点? 单个港口是否有问题而不是连续的港口? 顺便说一句 – show cable-diagnostics tdr int Gi4/0/14是非常酷… Interface Speed Local […]
我的公司生产一个embedded式的Debian Linux设备,可以从内置SSD驱动器上的ext3分区引导。 由于该设备是一个embedded式“黑匣子”,因此通常通过外接开关切断设备的电源,这种方式通常会被粗暴地closures。 这通常是可以的,因为ext3的日志logging保持有序,所以除了偶尔的日志文件部分丢失以外,事情一直保持顺畅。 然而,最近我们看到了许多单位,经过一些硬核循环之后,ext3分区开始出现结构性问题 – 特别是我们在ext3分区上运行e2fsck,并发现了一些类似的问题显示在本课题底部的输出列表中。 运行e2fsck直到它停止报告错误(或重新格式化分区)将清除问题。 我的问题是…在一个ext3 / SSD系统出现突然/意外关机的情况下,看到这样的问题有什么影响? 我的感觉是,这可能是我们系统中的软件或硬件问题的标志,因为我的理解是(除了一个bug或硬件问题)ext3的日志loggingfunction应该能够防止这些文件系统完整性错误。 (注意:我知道用户数据没有被logging,所以可能会发生用户文件的删除/丢失/截断;我在这里具体讨论文件系统 – 元数据错误,如下所示) 另一方面,我的同事说,这是已知的/预期的行为,因为SSD控制器有时会重新sorting写入命令,并可能导致ext3日志混淆。 特别是,他相信,即使给出了正常运行的硬件和无缺陷的软件,ext3日志也只会使得文件系统损坏的可能性降低,而不是不可能,所以我们不应该感到惊讶。 我们哪一个是对的? Embedded-PC-failsafe:~# ls Embedded-PC-failsafe:~# umount /mnt/unionfs Embedded-PC-failsafe:~# e2fsck /dev/sda3 e2fsck 1.41.3 (12-Oct-2008) embeddedrootwrite contains a file system with errors, check forced. Pass 1: Checking inodes, blocks, and sizes Pass 2: Checking directory structure Invalid inode number for '.' […]