我有一台IIS服务器,每周五和周六凌晨3:15左右都会崩溃。 我知道在Bank 1中更换DIMM A可能会解决这个问题。 但是我希望能够在这之前解决这个问题。 但更换RAM是预定的。 下面是发生什么事情的问题。 3:14:35 am SceCli (Informational) Security policy in the Group policy objects has been applied successfully 3:15:19 am Desktop Window Manager (Informational) The Desktop Window Manager has exited with code (0x40010004) 3:15:19 am User Profile Service (Warning) Windows detected your registry file is still in use by other applicatiion […]
HP ProLiant ML350p Gen8服务器出现问题。 大多数情况下,它运行良好,但正常运行几个星期后,服务器崩溃了。 这发生了大约5次。 当它崩溃时,操作系统(VMWare ESXi 5.5)停止工作,风扇全速运行。 然后按下电源button不会改变任何东西。 我必须拔下电源线并重新插入才能重新启动。 我已经做了memtest没有任何错误。 我也没有在日志中find任何东西。 你有什么想法如何解决这个问题?
几天前,我们的一台networking服务器在很短的时间内就closures了。 它不响应任何远程请求(说实话,我不知道如果USB键盘和显示器被插入,它是否会作出响应),数据中心的工程师重新启动服务器。 一切恢复正常,然后我检查了事件日志,看看是否有什么线索发生错误。 我真正能看到的事件是“先前的1AM关机意外”(这是服务器停机的时间,而不是工程师按下电源button的时间)。 该服务器有IIS – 但显然网站日志只显示导致崩溃(或冻结)的文件请求,崩溃前的stream量没有增加。 SQL Server也被安装,但是日志只是报告当服务器恢复时十几个事务被前滚。 还有什么我可以看看find一个可能的原因崩溃?
我的一个nfs服务器今天早上从监视中消失了。 我检查出来,控制台挂起,没有反应,显然是坠毁。 我重新开机并检查了系统日志,而且它似乎刚刚崩溃,没有迹象表明原因。 有没有我可以应用的任何内核或debugging设置,试图阻止未来再次发生或这个问题。 (或关于如何进行的任何build议)
我有基于CentOS 5.3的内核2.6.18-128.2.1.el5的服务器。 它工作了近一个月,但本周下降了三次。 我在Nagios看到它,写一封电子邮件来重启服务器。 它工作了12-36小时,然后再次下降。 我查看日志文件。 在/var/log/messages第一个错误发生之前就是这个消息: logrotate:ALERTexception退出[1] 第二次从数据中心的系统pipe理员重新启动服务器后给我这个屏幕截图: /var/log/messages中的第三个故障之前是消息: Eeek! page_mapcount(页面)变为负值(-1) 我应该如何调查这个问题? UPD: 部分memtester输出: 比较OR:FAILURE:0x7e9f90d1!= 0x7e9fd2d1,偏移量为0x06222609。 FAILURE:0x7e9f90d1!= 0x7e9fd0d1,偏移量为0x06222621。 FAILURE:0x7e9f90d1!= 0x7e9fd1d1,偏移量为0x06222661。 FAILURE:0x7e9f90d1!= 0x7e9f92d1,偏移量为0x06222681。 FAILURE:0x7e9f90d1!= 0x7e9fd0d1,偏移量为0x062226a1。 FAILURE:0x7e9f90d1!= 0x7e9fd0d1,偏移量为0x062226c1。 FAILURE:0x7e9f90d1!= 0x7e9f93d1,偏移量为0x062226e9。 这是错误的内存。 谢谢你的帮助!
今天我的Ubuntu 12.04服务器每小时开始一次崩溃。 实际上在每分钟32分钟。 这似乎是一个实际的内核崩溃,即没有什么/ var / log / syslog,它只是停止。 我甚至写了一个脚本,每秒打印一次,以确定确切的时间,看着下一次崩溃即将到来,最好的我可以告诉大约是一小时后的32分13秒。 但那时候我没有CRON的工作,什么也没有。 我所拥有的Perl脚本与我已经运行多年的Perl脚本没有任何特别之处。 大概几周以来,我还没有改变服务器上的任何东西,而且没有什么重要的。 我已经经历了我能find的所有计划任务的来源。 当时没有什么特别的事情发生,除了服务器崩溃而没有留下任何原因的痕迹。 当它崩溃的时候,我别无select,只能通过托pipe公司的网站重新启动它,这是我迄今为止的解决scheme,但现在已经是凌晨4点了,我必须在某个时间rest一下。 但如果我这样做,我的网站将在一个小时内下降。 任何帮助将不胜感激,要么a)如何find这个正在运行的任务,并导致崩溃,如果这是事实,或者b)如何跟踪发生什么,当它不出现在syslog或dmesg。 已解决 。 我联系了我的主人。 显然,他们安装了新的服务器监控软件,标志着我使用了太多的磁盘I / O。 而不是告诉我,他们的这个软件只是杀了我的服务器。 它每小时运行32分钟。
在过去的一个月中,我的一个Debian Squeeze(Linux 2.6.32-bpo.5-amd64)机器确实被locking了两次, 很难 。 没有响应ARP,黑暗控制台,大写locking,数字locking不工作, Magic SysRq无效。 从backports将内核更改为3.2.0-0.bpo.2-amd64也无济于事。 温度和负载监控在碰撞之前不会显示任何尖峰。 我应该如何诊断和debugging这样的问题? netconsole是我唯一的select吗? 编辑:我已经禁用屏幕消隐: #/etc/console-tools/config BLANK_TIME=0 POWERDOWN_TIME=0 和 setterm -blank 0 在物理控制台上。 更新: 这一次它locking,屏幕仍然显示login提示。 由于最后的问题,我已经用BOINC(Prime 95)testing运行了6小时的负载testing,没有任何问题。
服务器上升时间不到10分钟,但顶端显示所有进程的CPU使用时间非常高[1](使用超过百万小时),这是一个24核心的机器。 系统最终在10-15分钟内坠毁。 电力回收后恢复正常。 我倾向于一个错误的硬件,以某种方式通过电力回收正确初始化。 任何想法可能出了什么问题? [1] PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 13 root 20 0 0 0 0 S 100.0 0.0 30019,26 ksoftirqd/2 33 root 20 0 0 0 0 S 100.0 0.0 40025,54 ksoftirqd/7 53 root 20 0 0 0 0 S 100.0 0.0 65042,06 ksoftirqd/12 2842 […]
我的服务器随机挂起,没有任何日志logging(dmesg,syslog,kern.log,boot.log和消息)变得没有响应。 我无法预测什么时候会发生。 有时服务器运行良好数月,突然间又开始发生。 在上个星期发生了8次以上。 这种情况已经发生了一年多了。 内核日志总是一样的: Jan 24 03:20:34 voyager dnsmasq-dhcp[4476]: DHCPREQUEST(br100) 192.168.145.3 fa:16:3e:4e:e0:d5 Jan 24 03:20:34 voyager dnsmasq-dhcp[4476]: DHCPACK(br100) 192.168.145.3 fa:16:3e:4e:e0:d5 viaapp Jan 24 03:20:37 voyager dnsmasq-dhcp[4476]: DHCPREQUEST(br100) 192.168.145.9 fa:16:3e:62:09:86 Jan 24 03:20:37 voyager dnsmasq-dhcp[4476]: DHCPACK(br100) 192.168.145.9 fa:16:3e:62:09:86 web-sistemas Jan 24 03:20:38 voyager dnsmasq-dhcp[4476]: DHCPREQUEST(br100) 192.168.145.16 fa:16:3e:79:dd:f8 Jan 24 03Jan 24 03:22:47 voyager kernel: […]
我们在一个8核双插槽机器上运行2.6.32-358.56.1.el6.x86_64上的perf。 我们在CPU 1-31上有CPU iso(除0以外的所有),我们的应用程序使用CPU 1-31。 运行perf的几秒钟–pid设置整个刀片崩溃,我们必须手动重置。 我们在/ var / log / messages中看不到任何日志。 任何想法的人?