Articles of 服务器崩溃

Linux服务器崩溃(drm:drm_fb_helper_panic)

我们有一台运行Ubuntu 10.04 LTS的服务器(IBM x3850 8864)。 它充当KVM主机上的多个虚拟机(也运行Ubuntu 10.04)。 (物理)服务器有时会崩溃,如错误消息 检查监视图表,在崩溃之前没有高负载或任何其他不正常的事情发生。 这种崩溃每2-3个月发生一次。 在我们的情况下,把盒子扔掉太稀罕了,但往往忽视这个问题。 所以我的问题是: 这些错误信息是什么意思? 如果从错误信息中无法确定问题是什么,那么接下来要进一步调查这个问题又是什么呢?

“show_signal_msg:Ncallback抑制”,然后挂100%,机器无响应

发生在Ubuntu 14.04 64位DigitalOcean Droplet上: Apr 22 02:17:02 localhost CRON[32514]: (root) CMD ( cd / && run-parts –report /etc/cron.hourly) Apr 22 03:16:59 localhost kernel: [211877.884132] show_signal_msg: 12 callbacks suppressed Apr 22 03:16:59 localhost kernel: [211877.884140] python[2376]: segfault at 24 ip 00000000004c278f sp 00007fbad163caa0 error 6 in python2.7[400000+2bd000] 在凌晨3:16左右,CPU高达100%,机器无法ping通,SSH和(远程)控制台: View post on imgur.com 在第一次段错误之前怎么会出现“callback抑制”限制? http://lxr.free-electrons.com/source/arch/x86/mm/fault.c#L727 一般来说,几个segfaults如何导致内核locking? 违规的过程是在'while:'; […]

CentOS 6.5服务器locking

今天我们的一个来自OVH的CentOS 6.5 KVM节点在正常运行46天后崩溃,我们无法find原因,之前在另一台服务器上有OVH内核,但是这个运行正常的内核: Linux 2.6.32-431.11.2.el6.x86_64 #1 SMP Tue Mar 25 19:59:55 UTC 2014 x86_64 x86_64 x86_64 GNU/Linux 我们的监测工具显示如下: 看起来像是一个非常高的负载,即使没有虚拟机做什么奇怪的事情。 我首先查看了/var/log/messages/文件,在停机时间里什么也没有显示: Jun 16 11:15:11 server dhcpd: DHCPINFORM from 5.XXX.XX.104 via viifbr0 Jun 16 11:15:11 server dhcpd: DHCPACK to 5.XXX.XX.104 (02:XX:00:XX:XX:d3) via viifbr0 —–Downtime no logs—– Jun 16 12:24:01 server kernel: imklog 5.8.10, log source = /proc/kmsg […]

服务器因SMP而崩溃

我的networking服务器每隔几天就会崩溃,除非我在Grubconfiguration中使用“nosmp”参数禁用SMP。 这不是硬件故障,因为将所有内容移到新机器后问题仍然存在。 有谁知道哪个应用程序可以使系统日志中没有输出SMP系统冻结? 我可以在syslog中看到的唯一与内核相关的东西是这样的: Mar 3 09:38:27 kronos kernel: [382373.472638] exiftool[19894]: segfault at 8 ip 00007fb481a87ef8 sp 00007fffe17b0c60 error 4 in libperl.so.5.18.2[7fb4819c5000+180000] Mar 3 10:39:41 kronos kernel: [386050.013041] exiftool[1138]: segfault at 0 ip 00007ff9a7a716d5 sp 00007ffff0949030 error 6 in libperl.so.5.18.2[7ff9a7a45000+180000] Mar 3 10:52:16 kronos kernel: [386805.647826] exiftool[8117]: segfault at 10 ip 00007f950a4acfa6 sp 00007fff247a7c20 error […]

Nginx + Apache服务器每6天崩溃

我是一名networking开发人员,我正在与其中一个网站工作,我希望有人能帮助我。 该网站运行在CentOS 6.6专用服务器上,CentOS 6.6是一个以Vesta作为控制面板的Nginx + Apacheconfiguration。 我不确定这里是否非常相关,但是网站使用Sphinx作为search引擎。 从一月中旬开始,每6天一次,服务器崩溃,每次都在不同的时间。 恢复通常需要大约一个小时15分钟的时间,在这期间任何日志文件中都没有条目。 在服务器恢复之后,MySQL数据库中最大的两个表中的两个会引发重复键错误,并且由于它们太大而无法足够快地修复,我通常会截断它们,然后从备份中恢复它们。 我检查了所有的日志,我找不到有关崩溃的任何提示/相关信息。 所有日志包含正常的条目,直到崩溃时间,然后恢复服务器恢复后。 我检查了所有用户的cron,并且没有每六天运行一次。 崩溃之前的CPU和内存使用率非常低:1.6%的CPU和16.5%的内存,这是服务器上的通常负载。 大概一个星期,我怀疑Vesta备份cron与此有关,因为它始终保持内存使用率在74%,即使在运行完成之后,但我禁用了它,除了内存使用量的减less外,坠机事件仍在。 你有什么build议,我可以做什么来确定罪魁祸首? 我已经跑出了想法。 谢谢! PS:如果您需要我提供其他信息,请让我知道!

随机机器在CentOS / RHEL 6.5上挂起NFSv4

我们拥有一个拥有约100 CentOS(免费重新分配RHEL)5.7和6.5 x86_64服务器的内部“计算场”。 (我们正在将所有的5.7盒升级到6.5)。所有这些机器对两台CentOS 6.5服务器执行两次NFSv4挂载(sec = krb5p)。 一个NFS服务器用于用户主目录,另一个包含用于用户进程的各种数据。 随机地,其中一台客户端机器将进入一个坏的状态,因此任何对NFSv4挂载的访问都会挂起(例如“ls”)。 这意味着没有人(root除外)可以login,并且所有需要访问共享的用户进程都卡住了。 换句话说,到目前为止,这是非确定性的,不能被复制。 我在客户端和服务器上都启用了非常详细的NFS日志logging,但是从来没有得到任何错误。 但是,当这个状态被触发时,我确实在客户端机器上遇到这些内核跟踪错误: Mar 25 00:49:48 servername kernel: INFO: task ProcessName:8230 blocked for more than 120 seconds. Mar 25 00:49:48 servername kernel: Not tainted 2.6.32-431.el6.x86_64 #1 Mar 25 00:49:48 servername kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message. Mar 25 00:49:48 servername kernel: ProcessName D […]

Nvidia专有驱动程序崩溃CentOS 6.6

我在使用NVIDIA GeForce 9100的专有驱动程序时遇到问题。Xorg启动并正常工作,我可以使用所有东西,但是当我运行glxgears ,系统变得没有响应。 一切冻结,我松散ssh访问以及。 如果我不使用glxgears ,几分钟后系统会冻结。 日志文件中没有任何东西,所以我很难理解发生了什么问题。 我尝试从ssh shell监视dmesg ,但系统在任何消息被报告之前冻结。 我有kdump启动并运行,但是在硬重启系统后, /var/crash没有任何内容。 kmod-nvidia-340xx包和从Nvidia网站直接下载的驱动都会发生这种情况。 我的系统是CentOS 6.6(Final),2.6.32-504.23.4.el6.x86_64 $ lspci | grep VGA 02:00.0 VGA compatible controller: NVIDIA Corporation C78 [GeForce 9100] (rev a2) video卡被nvidia工具正确识别 $ nvidia-detect kmod-nvidia-340xx

在故障转移群集中同时发生服务器崩溃

在故障转移群集中有两台服务器。 集群定义了一个共享的“ClusterStorage”驱动器。 驱动器通过iScsi映射到SAN设备。 最近,两台服务器同时自行重新启动。 服务器和群集的事件日志中的错误表示服务器无法访问/写入共享驱动器。 每个服务器都可以通过2个不同子网上的2个独立networkingpath使用2个网卡访问SAN。 SAN有2个控制器。 SAN上的事件日志不会报告与此事件相对应的任何错误。 另外,也使用SAN的数据库服务器(通过群集上定义的SQLangular色和专用驱动器)没有报告任何IO错误。 这似乎表明SAN很好,可以到达。 然而,这两台服务器自己重新启动,通过集群破坏了冗余。 集群事件 – MAPLE重新启动 在MAPLE上pipe理事件日志 系统甚至loginMAPLE 任何想法在这个重新启动的实际原因?

多核系统上的BSOD错误检查 – 什么线程导致崩溃?

我知道一个Windows的系统会因为一些常见原因而停止运行并出现“蓝屏”,其中一些可能是: 在内核模式空间中运行的设备驱动程序或操作系统function会遇到未处理的exception(内存访问问题等) 设备驱动程序或操作系统function会显式崩溃系统,因为它检测到损坏或损坏风险 硬件故障 我感兴趣的是,当检查崩溃转储(比如说WinDBG)时,转储将始终指示导致崩溃的线程,从而允许检查该线程的堆栈,提供导致错误检查和崩溃。 走这个堆栈会给出如何防止未来问题的线索(例如,特定的驱动程序需要更新等)。 知道这一点,我问自己下面的问题,这揭示了我的知识上的差距: 在多核/处理器系统上,多个线程将同时执行 那么肯定有两个线程同时发生错误检查的可能性? 在这种情况下会发生什么? 我对于操作系统在并发执行和访问内存和硬件(IRQL和延迟过程调用(DPC)等)方面如何处理多核/处理器系统有一个基本的误解? 谢谢

Proxmox系统重启没有任何理由? ^ @logging到系统日志

昨天我的proxmox-server重新启动,没有任何理由,我可以看到。 日志显示 Sep 1 15:13:47 example kernel: [4514929.741761] Firewall: *UDP_IN Blocked* IN=vmbr0 OUT= MAC=ff:ff:ff:ff:ff:ff:0c:c4:7a:77:38:28:08:00 SRC=123.123.123.123 DST=255.255.255.255 LEN=173 TOS=0x00 PREC=0x00 TTL=64 ID=47121 DF PROTO=UDP SPT=17500 DPT=17500 LEN=153 ^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^$ Sep 1 15:17:50 example systemd-modules-load[817]: Module 'fuse' is builtin Sep 1 15:17:50 example systemd-modules-load[817]: Inserted module 'vhost_net' Sep 1 15:17:50 example hdparm[856]: Setting parameters of disc: (none). Sep […]