服务器崩溃服务器 Gind.cn

Linux服务器崩溃（drm：drm_fb_helper_panic）

我们有一台运行Ubuntu 10.04 LTS的服务器（IBM x3850 8864）。它充当KVM主机上的多个虚拟机（也运行Ubuntu 10.04）。（物理）服务器有时会崩溃，如错误消息检查监视图表，在崩溃之前没有高负载或任何其他不正常的事情发生。这种崩溃每2-3个月发生一次。在我们的情况下，把盒子扔掉太稀罕了，但往往忽视这个问题。所以我的问题是：这些错误信息是什么意思？如果从错误信息中无法确定问题是什么，那么接下来要进一步调查这个问题又是什么呢？

“show_signal_msg：Ncallback抑制”，然后挂100％，机器无响应

发生在Ubuntu 14.04 64位DigitalOcean Droplet上： Apr 22 02:17:02 localhost CRON[32514]: (root) CMD ( cd / && run-parts –report /etc/cron.hourly) Apr 22 03:16:59 localhost kernel: [211877.884132] show_signal_msg: 12 callbacks suppressed Apr 22 03:16:59 localhost kernel: [211877.884140] python[2376]: segfault at 24 ip 00000000004c278f sp 00007fbad163caa0 error 6 in python2.7[400000+2bd000] 在凌晨3:16左右，CPU高达100％，机器无法ping通，SSH和（远程）控制台： View post on imgur.com 在第一次段错误之前怎么会出现“callback抑制”限制？ http://lxr.free-electrons.com/source/arch/x86/mm/fault.c#L727 一般来说，几个segfaults如何导致内核locking？违规的过程是在'while：'; […]

CentOS 6.5服务器locking

今天我们的一个来自OVH的CentOS 6.5 KVM节点在正常运行46天后崩溃，我们无法find原因，之前在另一台服务器上有OVH内核，但是这个运行正常的内核： Linux 2.6.32-431.11.2.el6.x86_64 #1 SMP Tue Mar 25 19:59:55 UTC 2014 x86_64 x86_64 x86_64 GNU/Linux 我们的监测工具显示如下：看起来像是一个非常高的负载，即使没有虚拟机做什么奇怪的事情。我首先查看了/var/log/messages/文件，在停机时间里什么也没有显示： Jun 16 11:15:11 server dhcpd: DHCPINFORM from 5.XXX.XX.104 via viifbr0 Jun 16 11:15:11 server dhcpd: DHCPACK to 5.XXX.XX.104 (02:XX:00:XX:XX:d3) via viifbr0 —–Downtime no logs—– Jun 16 12:24:01 server kernel: imklog 5.8.10, log source = /proc/kmsg […]

服务器因SMP而崩溃

我的networking服务器每隔几天就会崩溃，除非我在Grubconfiguration中使用“nosmp”参数禁用SMP。这不是硬件故障，因为将所有内容移到新机器后问题仍然存在。有谁知道哪个应用程序可以使系统日志中没有输出SMP系统冻结？我可以在syslog中看到的唯一与内核相关的东西是这样的： Mar 3 09:38:27 kronos kernel: [382373.472638] exiftool[19894]: segfault at 8 ip 00007fb481a87ef8 sp 00007fffe17b0c60 error 4 in libperl.so.5.18.2[7fb4819c5000+180000] Mar 3 10:39:41 kronos kernel: [386050.013041] exiftool[1138]: segfault at 0 ip 00007ff9a7a716d5 sp 00007ffff0949030 error 6 in libperl.so.5.18.2[7ff9a7a45000+180000] Mar 3 10:52:16 kronos kernel: [386805.647826] exiftool[8117]: segfault at 10 ip 00007f950a4acfa6 sp 00007fff247a7c20 error […]

Nginx + Apache服务器每6天崩溃

我是一名networking开发人员，我正在与其中一个网站工作，我希望有人能帮助我。该网站运行在CentOS 6.6专用服务器上，CentOS 6.6是一个以Vesta作为控制面板的Nginx + Apacheconfiguration。我不确定这里是否非常相关，但是网站使用Sphinx作为search引擎。从一月中旬开始，每6天一次，服务器崩溃，每次都在不同的时间。恢复通常需要大约一个小时15分钟的时间，在这期间任何日志文件中都没有条目。在服务器恢复之后，MySQL数据库中最大的两个表中的两个会引发重复键错误，并且由于它们太大而无法足够快地修复，我通常会截断它们，然后从备份中恢复它们。我检查了所有的日志，我找不到有关崩溃的任何提示/相关信息。所有日志包含正常的条目，直到崩溃时间，然后恢复服务器恢复后。我检查了所有用户的cron，并且没有每六天运行一次。崩溃之前的CPU和内存使用率非常低：1.6％的CPU和16.5％的内存，这是服务器上的通常负载。大概一个星期，我怀疑Vesta备份cron与此有关，因为它始终保持内存使用率在74％，即使在运行完成之后，但我禁用了它，除了内存使用量的减less外，坠机事件仍在。你有什么build议，我可以做什么来确定罪魁祸首？我已经跑出了想法。谢谢！ PS：如果您需要我提供其他信息，请让我知道！

随机机器在CentOS / RHEL 6.5上挂起NFSv4

我们拥有一个拥有约100 CentOS（免费重新分配RHEL）5.7和6.5 x86_64服务器的内部“计算场”。（我们正在将所有的5.7盒升级到6.5）。所有这些机器对两台CentOS 6.5服务器执行两次NFSv4挂载（sec = krb5p）。一个NFS服务器用于用户主目录，另一个包含用于用户进程的各种数据。随机地，其中一台客户端机器将进入一个坏的状态，因此任何对NFSv4挂载的访问都会挂起（例如“ls”）。这意味着没有人（root除外）可以login，并且所有需要访问共享的用户进程都卡住了。换句话说，到目前为止，这是非确定性的，不能被复制。我在客户端和服务器上都启用了非常详细的NFS日志logging，但是从来没有得到任何错误。但是，当这个状态被触发时，我确实在客户端机器上遇到这些内核跟踪错误： Mar 25 00:49:48 servername kernel: INFO: task ProcessName:8230 blocked for more than 120 seconds. Mar 25 00:49:48 servername kernel: Not tainted 2.6.32-431.el6.x86_64 #1 Mar 25 00:49:48 servername kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message. Mar 25 00:49:48 servername kernel: ProcessName D […]

Nvidia专有驱动程序崩溃CentOS 6.6

我在使用NVIDIA GeForce 9100的专有驱动程序时遇到问题。Xorg启动并正常工作，我可以使用所有东西，但是当我运行glxgears ，系统变得没有响应。一切冻结，我松散ssh访问以及。如果我不使用glxgears ，几分钟后系统会冻结。日志文件中没有任何东西，所以我很难理解发生了什么问题。我尝试从ssh shell监视dmesg ，但系统在任何消息被报告之前冻结。我有kdump启动并运行，但是在硬重启系统后， /var/crash没有任何内容。 kmod-nvidia-340xx包和从Nvidia网站直接下载的驱动都会发生这种情况。我的系统是CentOS 6.6（Final），2.6.32-504.23.4.el6.x86_64 $ lspci | grep VGA 02:00.0 VGA compatible controller: NVIDIA Corporation C78 [GeForce 9100] (rev a2) video卡被nvidia工具正确识别 $ nvidia-detect kmod-nvidia-340xx

在故障转移群集中同时发生服务器崩溃

在故障转移群集中有两台服务器。集群定义了一个共享的“ClusterStorage”驱动器。驱动器通过iScsi映射到SAN设备。最近，两台服务器同时自行重新启动。服务器和群集的事件日志中的错误表示服务器无法访问/写入共享驱动器。每个服务器都可以通过2个不同子网上的2个独立networkingpath使用2个网卡访问SAN。 SAN有2个控制器。 SAN上的事件日志不会报告与此事件相对应的任何错误。另外，也使用SAN的数据库服务器（通过群集上定义的SQLangular色和专用驱动器）没有报告任何IO错误。这似乎表明SAN很好，可以到达。然而，这两台服务器自己重新启动，通过集群破坏了冗余。集群事件 – MAPLE重新启动在MAPLE上pipe理事件日志系统甚至loginMAPLE 任何想法在这个重新启动的实际原因？

多核系统上的BSOD错误检查 – 什么线程导致崩溃？

我知道一个Windows的系统会因为一些常见原因而停止运行并出现“蓝屏”，其中一些可能是：在内核模式空间中运行的设备驱动程序或操作系统function会遇到未处理的exception（内存访问问题等）设备驱动程序或操作系统function会显式崩溃系统，因为它检测到损坏或损坏风险硬件故障我感兴趣的是，当检查崩溃转储（比如说WinDBG）时，转储将始终指示导致崩溃的线程，从而允许检查该线程的堆栈，提供导致错误检查和崩溃。走这个堆栈会给出如何防止未来问题的线索（例如，特定的驱动程序需要更新等）。知道这一点，我问自己下面的问题，这揭示了我的知识上的差距：在多核/处理器系统上，多个线程将同时执行那么肯定有两个线程同时发生错误检查的可能性？在这种情况下会发生什么？我对于操作系统在并发执行和访问内存和硬件（IRQL和延迟过程调用（DPC）等）方面如何处理多核/处理器系统有一个基本的误解？谢谢

Proxmox系统重启没有任何理由？ ^ @logging到系统日志

昨天我的proxmox-server重新启动，没有任何理由，我可以看到。日志显示 Sep 1 15:13:47 example kernel: [4514929.741761] Firewall: *UDP_IN Blocked* IN=vmbr0 OUT= MAC=ff:ff:ff:ff:ff:ff:0c:c4:7a:77:38:28:08:00 SRC=123.123.123.123 DST=255.255.255.255 LEN=173 TOS=0x00 PREC=0x00 TTL=64 ID=47121 DF PROTO=UDP SPT=17500 DPT=17500 LEN=153 ^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^$ Sep 1 15:17:50 example systemd-modules-load[817]: Module 'fuse' is builtin Sep 1 15:17:50 example systemd-modules-load[817]: Inserted module 'vhost_net' Sep 1 15:17:50 example hdparm[856]: Setting parameters of disc: (none). Sep […]

Intereting Posts

什么存储使用？可接受的平均负载将VM从XenServer转换为VMware 来自httpd进程的高CPU Nginx，将来自某个域的引用logging到独立的日志文件中我的公司可以通过SSH隧道阻止网站吗？专用的MySQL服务器大WordPress站点内存使用通过shell访问备份你的Unix服务器 Windows中的path长度为什么Server 2012在创buildDHCP服务器时分配“169.254。*。*”系列？将系统的时间服务器设置为自己监视Win2003框。服务器不在同一个networking中 IIS7和SSL证书停止使用Azure AD Sync同步个人属性我想我的日志发送到我的邮件与logrotate

Articles of 服务器崩溃