Articles of 硬件

Debian服务器意外重启

我的实验室的Debian-Wheezy-7.8-Stable服务器在几小时的正常运行时间内几次重启,没有任何通知。 该服务器设置为相当高的负载数值计算以及并行计算。 我已经从var/log/messages打印日志, last reboot但是我发现很难理解这个日志消息。 我已经尝试在重启时间之前查看入口,并在var/log/messages同时查看,但似乎来自var/log/messages条目仅在重新启动后显示日志/消息。 我浏览了一下,发现有些人遇到了同样的问题,但是看起来原因是彼此不同的,而/var/log/messages似乎是解决问题的关键。 我的var/log/messages实际上描述了这个不需要的重启事件? 以及如何开始学习如何阅读这个日志为初学者? 我的意思是有任何重要的关键字要查找什么? 感谢您提供任何帮助。 last reboot reboot system boot 3.2.0-4-amd64 Wed May 20 03:29 – 12:43 (09:14) reboot system boot 3.2.0-4-amd64 Tue May 19 16:01 – 12:43 (20:42) var/log/messages May 18 07:35:01 labserver rsyslogd: [origin software="rsyslogd" swVersion="5.8.11" x-pid="2400" x-info="http://www.rsyslog.com"] rsyslogd was HUPed May 19 07:35:01 labserver rsyslogd: [origin […]

卓越的硬件升级后,Mysql的性能下降

我是相当新的Percona /数据库服务器,我不知道如何处理以下问题。 几天前,我升级了percona集群(3个节点)服务器的硬件,这个服务器的性能要好得多。 前置硬件的规格: Vendor: OEM cpu: i7-3930K 3.2 GHz(12 cores) RAM: 64G (8 x 8GB DIMM DDR3 1334Mhz) I/O: software RAID 新硬件规格: Vendor: DELL PowerEdge™ R730 DX291 cpu: Intel(R) Xeon(R) CPU E5-2630v3 2.4GHz (32 cores) RAM: 128G (8 x 16GB DIMM DDR4 1866Mhz) I/O: Hardware raid ( raid10 – 1024M Non-Volatile cache – Adaptive […]

服务器冻结,没有内核恐慌

我们正在运行一个KVM节点,它不规则地崩溃,显示出一个非常奇怪的行为。 有趣的是,我们已经有另一个每1-2周崩溃的节点出现这个问题。 由于找不到硬件问题,我们开始将虚拟机迁移到新节点。 在我们迁移了50%的虚拟机大概一个星期后,新的节点崩溃,而“旧”的虚拟机运行良好(正常运行3周,我们几个月没有看到这么好的运行时间)。 当一个节点崩溃时,我们有时会在Supermicro IPMI上看到这些奇怪的东西: 我们也看到: “没有信号”就像服务器已closures(当然不是,在IPMI主页上也没有显示关机) 正常的login屏幕或服务器的其他正常输出,但冻结 我们从来没有看到的是在崩溃之前的核心恐慌或至less一些日志中的消息,完全沉默,直到突然灯熄灭。 随着问题从一台服务器“移动”到另一台(一台全新的机器),我认为只剩下几个选项: 一个特定的VM正在造成这个问题 内核错误 硬件问题关于我们的设置 有关机器的更多信息: 最新内核的CentOS 7(3.10.0-514.2.2.el7.x86_64) 带有冗余电源的Supermicro机箱 带有最新BIOS版本的Supermicro X10DRi / X10DRWi 英特尔至强E5-2630 v3 / v4 512 GB DDR4 ECC RAM(三星服务器内存) 145个虚拟机正在运行(远离饱和的RAM和CPU,也由于KSM) 带有8/16 SSD的软件RAID-10 有没有人看到这种行为或可以说一些关于控制台上的奇怪的“消息”? 我从来没有见过这样的事情,甚至不知道我应该如何描述这个谷歌search。 目前我们不知道下一步应该做什么,因为它可能是一切。 提前致谢!

很多丢包在网卡上

我注意到在我的一些服务器的网卡上有大量丢包。 你以前见过这样的事吗? 任何想法可能是什么问题? 下面有一些可能与诊断此问题相关的信息。 ifconfig eth0 eth0 Link encap:Ethernet HWaddr 00:1C:C0:C0:EA:26 inet addr:192.168.100.90 Bcast:192.168.100.255 Mask:255.255.255.0 inet6 addr: fe80::21c:c0ff:fec0:26ea/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 RX packets:613183643 errors:0 dropped:3745216480 overruns:0 frame:0 TX packets:591528174 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1000 RX bytes:2579582564 (2.4 GiB) TX bytes:2103414697 (1.9 GiB) Interrupt:177 Base address:0x4000 lspci -nn 02:00.0 Ethernet controller […]

服务器操作系统和应用程序的物理到物理迁移

我有几个物理服务器,其上安装了Windows 2003操作系统,还有一些运行在其上的基于Web的应用程序。 这些服务器是HP DL380 G5服务器即将到来的时候,并没有像现代的G6 / G7 HP DL380服务器那样拥有如此高的用电量。 目前,将这些操作系统和应用程序迁移到新硬件的预计工作量非常大,所以我正在寻找一种类似于P2V进行P2P迁移的VMWare转换器的工具。 我可以忍受这些服务器上的一些停机时间,如果我能find一个工具来为我进行迁移,并因此节省了我很多天的人力资源。 任何人都可以build议一个适当的工具和你的经验吗? 提前致谢。

为什么服务器供应商总是将硬件虚拟化支持禁用?

可能重复: 启用硬件虚拟化BIOS; 什么要小心? 这对于所有硬件供应商来说似乎都是常见的做法,一直在困扰我一段时间:为什么硬件虚拟化在服务器的BIOS中总是被禁用? 它能降低系统的稳定性吗? 它可以造成安全风险吗? 它可以有任何兼容性问题? find它被禁用并让你的虚拟机pipe理程序拒绝工作总是一件痛苦的事情,特别是如果你没有访问服务器的BIOS,并需要打电话给其他人来解决这个问题。 所有服务器CPU都支持硬件辅助的虚拟化,而且不再是“新”或“实验性”function。 这是否有任何技术上的原因?

USB设备随机进入“未知设备”

我们有一个使用m2sys(usb设备)的生物扫描仪的信息亭。 它扫描你的手掌识别你。 生物扫描仪每隔一到三次,一天可能会变成一个未知的设备。 我们无法看到任何模式或共同点。 当我们拔下并重新插入时,它将再次可用。 我们有自定义的软件,使用生物扫描仪的软件进行沟通。 我们已经添加了一个日志logging的垃圾负载,但似乎没有什么东西closures时的模式。 我们已经将这些设备部署到了多个地点(100多个),他们都看到了这些问题,但我们不能在这里在主要办公室重现。 我评估过这个软件,但是我什么都看不到。 我认为这是一个驱动程序或硬件问题(但是我们不能在主要办公室重现问题),或者是扫描枪,自动门,微波炉或其他类似的环境干扰。 任何想法都会受到欢迎。 我正在寻找可能的原因,未知的USB设备或方法找出原因是什么。 没有其他的USB设备有这个问题,只有扫描仪 我们已经联系了制造商,他们责怪我们的软件 我们正在从微软那里得到帮助,但是他们没有find任何东西 操作系统是embedded式XP http://www.m2sys.com/palm-vein-reader.htm

将RAID 10移动到Smart Array 6i控制器上的另一台相同的服务器上

我已经死了HP DL 380G4与RAID 1 + 0与从内置的智能arrays6i 128Mb BBWC 4x72GB驱动器1逻辑卷。 它正常closures。 国际劳工组织领导的2,3,8照明似乎是Proliant的平常死亡。 我想移动arrays到另一个相同的服务器与相同的RAID固件级别。 什么是最好的策略?:我在托架0托架1托架2托架3上有RAID 1 + 0 据我所知,bay0 + bay1在RAID 1中,bay2 + bay3在RAID 1中,两个RAID 1都在RAID 0中。 所以我应该: 在新服务器上清除RAIDconfiguration,插入托架0,托架2并打开电源 要么 从清空的硬盘驱动器创build带有1个逻辑卷的RAID 1 + 0,然后closures硬盘,从旧的RAID 1 + 0插入2个硬盘驱动器(托架0,托架2)。 然后开机。 (每个硬盘都有其存储的raid位置信息,但可能可以在同一个configuration上工作) 根据Smart Array 6i的文档,可以迁移。 但是对于我来说一个要求点还不清楚 Before you move drives, the following conditions must be met: • The array is […]

调查潜在的CPU故障

在我用于计算的Ubuntu服务器上,我最近观察到一些CPU扩展程序(GUROBI,CPLEX)经常出现段错误。 与相应程序的技术支持相对应,我被build议可能是硬件问题。 服务器的pipe理员执行了一个详细的memtest,事实certificate,RAM模块似乎没有问题。 因此,我用mprime工具来testingCPU,在压力testing的执行过程中,下面两行出现多次: [工人#10月18日18:47]致命错误:舍入是0.498046875,预计不到0.4 [工人#10月18日18:47]检测到硬件故障,请参阅stress.txt文件。 stress.txt文件本身并不是很详细,可能是这个错误的原因,所以我想问一下这里是否有人碰巧知道这个问题的原因是什么? 有没有其他的testing可以进一步解决问题? 在整个压力testing(+ 69.0°C(高= + 80.0°C,暴击= + 98.0°C))期间,系统(以及所有核心)的温度都很好,所讨论的CPU是Intel Core i7-2600K CPU @ 3.40GHz并没有超频或以任何方式修改。 另外有趣的是,如果我运行mprime只强调CPU所有testing通过罚款。 只有当我让mprime强调CPU + RAM时才会触发错误。

风扇通过IPMI在SuperMicro系统上运行

我有一个SuperMicro 4027GR-TRT服务器,我正在运行多个GPU。我想设置风扇速度更高,他们现在正在使用IPMI,虽然我不知道该怎么做。 我目前能够使用原始命令使用ipmitool与系统进行交互。 我已经能够使用以下命令获取和设置系统风扇设置(通过http://www.supermicro.com/support/faqs/faq.cfm?faq=18009 ): ipmitool -I raw 0x30 0x45 0x01 0x00 这会将粉丝设置为“正常,完整或最佳”。 目前,我的粉丝们正在以大约4,700转的速度运转在最佳状态。 我怎样才能将我的风扇风速提高到〜8,000转/分左右? 我试图改变风扇的门槛,但我不明白这些设置在做什么。 有没有办法将风扇速度设置为单个值? 如果不是,我将如何设置最低阈值,使其下限为8,000 RPM? 我目前的阈值设置如下: FAN1 4800.000 | RPM | OK | 300.000 | 500.000| 700.000| 25500.000 | 25500.000 | 25500.000 我已经尝试将下限设置为8,000,但是这使得所有风扇都以14,000 RPM运行。 我不确定下限是如何工作的。