硬件服务器 Gind.cn

ECC chipkill错误：哪个DIMM？

我们经常在我们的服务器上使DIMM发生故障，并在syslog中出现以下错误： 5月7日09:15:31 nolcgi303内核：EDAC k8 MC0：一般总线错误：参与处理器（本地节点响应），超时（无超时）内存事务types（通用读取），内存或I / O（内存访问），caching级别（通用） 5月7日09:15:31 nolcgi303内核：MC0：CE页面0xa0，偏移量0x40，谷物8，症状0xb50d，第2行，通道0，标签“”：k8_edac 5月7日09:15:31 nolcgi303内核：MC0：CE – 无可用信息：k8_edac错误溢出设置 5月7日09:15:31 nolcgi303内核：EDAC k8 MC0：扩展错误代码：ECC chipkill x4错误我们可以使用HP SmartStart CD来确定哪个DIMM出现错误，但需要将服务器停止生产。有一个狡猾的方法来确定在服务器启动时哪个DIMM崩溃了吗？我们所有的服务器都是运行RHEL 5的HP硬件。

什么原因导致硬盘故障？

什么原因导致硬盘故障。我想知道这些常见原因，以及如何预防这种情况。

数据库服务器更重要的是什么？纪念品？ Mem速度？核心？

我将把我的数据库服务器移到一些更好的新硬件上。当前的数据库服务器除了运行Centos 4之外没有任何问题。当前的硬件是2个四核至强5335，4个15K RPM的RAID 10和4GB（是的，实际上只有4GB）的内存。我的预算中的硬件select几乎没有价格差异，在RAID 10中将具有相同的4个15K RPM硬盘驱动器。它们是： 2四核至强5335与8GB 533/667 2hex核心至强2620与16GB 1333 4个双核心opteron 8212与8GB 667 1个8核心至强2650 8GB 1333 1个四核至强3460与16GB 1333 排除硬盘驱动器，数据库服务器的重要部分的顺序是什么？是这样的：内存大小，内存速度，核心，然后caching大小？

在哪里购买一台512GB内存的服务器？

我在哪里可以购买一台512 GB的服务器，是GB的内存？我见过的最多的是256 GB（每根32个DIMM x 8 GB）

热备用主机vs冷备用主机？

我们有几个主机，我们有一个相同的热备份主机，这是修补和更新，所以它是非常接近，必须相同的软件和configuration。如果发生故障，网线将切换，DHCP服务器将更新为新的MAC地址。这是最好的情况，因为通常需要修改一些。我觉得有一个热备用主机，浪费时间来维护它是浪费电力的，而且由于在故障切换时需要修改configuration，所以我想问一下：热的东西是老派，现在有更好的办法吗？如果没有热备份主机，将它作为一个冷备用磁盘是有意义的，把硬盘驱动器放在主要主机，并将RAID从1更改为1 + 1。如果出现故障，我只能更换网线，更新DHCP服务器，取出硬盘并插入冷备用并打开电源。我所看到的好处是2×2磁盘总是保持同步，所以只有一个主机可以维护，不需要更改configuration。这是一个好主意吗？

你在哪里find你的MTBF数据？

平均无故障时间可能难以解释，但是如果您有一些硬数据，则可以使用大量的统计方法。麻烦的是，没有人再报告他们的MTBF号码。（无论如何，硬盘制造商除外）你去哪里去找组件和服务器的MTBF数据？

HP ProLiant系统准备/部署技术（arrays，BIOS，固件等）

我花了很多时间在HP ProLiant系统和Linux安装上。由于我工作的业务性质，我不能同时部署大量相同的系统。另外，我的系统分布在多个地点。我的许多服务器都是类似的，但是安装过程非常迅速，只需要足够的时间来查看系统configuration，处理器步进，固件版本和其他function的变化。所以，即使我有一个合理快速的kickstart系统需要5-10分钟，我花了45分钟的时间来升级服务器硬件。 1）。假设我有我想要的磁盘和物理组件，我开始安装固件DVD和/或SmartStart来configurationSmartArray逻辑驱动器和控制器设置。根据应用程序的不同，我需要更好地控制SmartArray，而不是BIOS实用程序允许的。固件更新很有帮助，因为服务器可能随旧版本一起发货。有时，我将在安装操作系统之后运行固件更新。 2）。国际劳工组织设置国际劳工组织的参数需要设置。 pipe理员密码更改，安装的ILO密钥，SNMP参数修改…我通常会在控制台执行此操作，或者在DHCP列表中findILO并远程连接。 3）。我需要在我pipe理的系统上进行特定的BIOS更改。例如，closures超线程，设置电源configuration文件，进入高级BIOS菜单启用低延迟设置，减lessASR超时，设置时间… 鉴于上述说明，我怎样才能简化这个过程呢？所有这些东西都可以编写脚本吗？大型无头安装环境中的工程师如何做到这一点？更重要的是，你怎样才能跟踪这些参数或强制一系列的改变？

HP服务器的自动硬件testing？

作为configuration服务器的一部分，我们运行HP的Insight Diagnostics来testing硬件。这是一个手动过程。有没有办法自动运行Insight Diagnostics？ hpdiags软件的选项是“-rd：”运行所有可诊断设备的诊断。从我的testing中，这并没有太大的作用（它只是从磁盘读取SMART信息）。有没有人有更好的运气？硬件：采用HP ProLiant BL460c刀片DL360的BladeCenter c7000。操作系统：ESXi和Ubuntu。

我的思科交换机端口坏了吗？

在过去的几天里，我一直在内部networking上为less数最终用户追逐丢包和networking稳定性问题……这些问题上周浮出水面，但是这个位置在六个星期前被闪电击中。我看到一堆四个Cisco 2960和一个77米长的另一端的几台电脑和手机之间有5-10％的数据包丢失。 PC通过中继链路（ switchportconfigurationpastebin ）与电话内联运行。我们看到客户端服务器应用程序和Microsoft Exchange连接中断电话和中断。我尝试了远程的常见故障排除步骤，让本地技术人员在用户和生产活动rest期间执行以下操作：更换墙上的插孔和设备之间的电缆。更换配线架和交换机端口之间的跳线。尝试2960堆栈内的不同交换机端口。用已知好的设备（新手机，不同的PC）更换terminal用户设备。清除交换机端口接口计数器和密切监视增量错误。（ sh int Pastebin输出）钻研设备日志和Observium RRD图表。从交换机端没有链路up / down问题。更换最终用户端的电源条。 testing电缆从Cisco 2960运行，使用test cable-diagnostics tdr int Gi4/0/9 （clean）* testing电缆使用Tripp-Lite电缆testing仪运行。（清洁）在交换机堆栈成员上运行诊断程序。（清洁）最后，三个交换机端口的变化find了一个稳定的解决scheme。唯一合乎逻辑的结论是，一些Cisco 2960交换机端口是坏的或片状的…没有死亡，但在行为上也不一致。我不习惯看到个别端口以这种方式死亡。还有什么我可以testing或检查，以确定这些设备是否坏？什么是最佳实践方法来validation这一点？单个港口是否有问题而不是连续的港口？顺便说一句 – show cable-diagnostics tdr int Gi4/0/14是非常酷… Interface Speed Local […]

在SSD驱动器的ext3分区“预期的行为”后突然断电的文件系统损坏？

我的公司生产一个embedded式的Debian Linux设备，可以从内置SSD驱动器上的ext3分区引导。由于该设备是一个embedded式“黑匣子”，因此通常通过外接开关切断设备的电源，这种方式通常会被粗暴地closures。这通常是可以的，因为ext3的日志logging保持有序，所以除了偶尔的日志文件部分丢失以外，事情一直保持顺畅。然而，最近我们看到了许多单位，经过一些硬核循环之后，ext3分区开始出现结构性问题 – 特别是我们在ext3分区上运行e2fsck，并发现了一些类似的问题显示在本课题底部的输出列表中。运行e2fsck直到它停止报告错误（或重新格式化分区）将清除问题。我的问题是…在一个ext3 / SSD系统出现突然/意外关机的情况下，看到这样的问题有什么影响？我的感觉是，这可能是我们系统中的软件或硬件问题的标志，因为我的理解是（除了一个bug或硬件问题）ext3的日志loggingfunction应该能够防止这些文件系统完整性错误。（注意：我知道用户数据没有被logging，所以可能会发生用户文件的删除/丢失/截断;我在这里具体讨论文件系统 – 元数据错误，如下所示）另一方面，我的同事说，这是已知的/预期的行为，因为SSD控制器有时会重新sorting写入命令，并可能导致ext3日志混淆。特别是，他相信，即使给出了正常运行的硬件和无缺陷的软件，ext3日志也只会使得文件系统损坏的可能性降低，而不是不可能，所以我们不应该感到惊讶。我们哪一个是对的？ Embedded-PC-failsafe:~# ls Embedded-PC-failsafe:~# umount /mnt/unionfs Embedded-PC-failsafe:~# e2fsck /dev/sda3 e2fsck 1.41.3 (12-Oct-2008) embeddedrootwrite contains a file system with errors, check forced. Pass 1: Checking inodes, blocks, and sizes Pass 2: Checking directory structure Invalid inode number for '.' […]

Intereting Posts

OpenVPN和性能如何设置每个传入邮件到Exchange服务器中的帐户的自动回复？相当于Heroku的Python 系统pipe理员已经设置了防止这种安装的策略 DNS – NSLOOKUP非权威答案是什么意思？寻找一个Windows DNSconfiguration到服务器2域在VPS上使用SuPHP 在corosync起搏器故障转移群集中启动服务修正了作为普通用户的“Stale file handle”错误？我在服务器上突然出现了一个gcp上的wordpress多站点问题从远程服务器pipe理多台主机上的docker容器 Varnish如何处理用完存储？通过http或https的vpn会话硬盘没有显示在Linux中每秒测量一次系统调用

Articles of 硬件