我们正在CentOS 7上运行一个LAMP堆栈VPS,它托pipe着一些网站,MariaDB数据库和相关的服务。 在深夜,我们的服务器神秘地完全离线。 当我们发现这个问题时,我们重新启动了VPS,服务器恢复正常了 – 但是我收到了一个SSH警告,告诉我RSA2指纹在重新login时发生了变化(这看起来非常可疑)。 日志parsing似乎表明,eth1连接突然停止工作: 完整日志从/ var / log / messages: http : //pastebin.com/Gbmitkhs 以下是服务器脱机之前的最后几行: Dec 17 02:24:53 WebServer NetworkManager[487]: <warn> (eth1) firewall zone remove failed [102402]: (4) Did not receive a reply. Possible causes include: the remote application did not send a reply, the message bus security policy blocked the reply, the […]
我在EC2上运行着各种各样的Ubuntu机器,大约有30个从15.04升级到15.10。 对于大多数机器来说,升级完美无缺,完全没有任何问题。 但是,我的10个networking服务器在15.10升级之后立即开始崩溃。 至于什么确切定义了“崩溃”,实例状态检查失败,我不能再SSH到机器。 在系统上运行的后台守护进程停止响应,并且没有任何内容写入日志。 我在一台机器上看到的最新日志条目显示: /var/log/syslog:Dec 18 00:28:58 xxx-web-4a dhclient: DHCPREQUEST of 10.xxx.xxx.104 on eth0 to 10.xxx.xxx.1 port 67 (xid=0x616a091d) /var/log/syslog:Dec 18 00:28:58 xxx-web-4a dhclient: DHCPACK of 10.xxx.xxx.104 from 10.xxx.xxx.1 /var/log/syslog:Dec 18 00:28:58 xxx-web-4a dhclient: bound to 10.xxx.xxx.104 — renewal in 1640 seconds. 但是我的实例状态检查直到00:32:00才开始失败(当几个检查中的第一个检查失败时)。 在上述条目之后的期间,日志中绝对没有任何内容。 现在,就像我说的那样,其他15.10个实例在升级后的六个星期内从未崩溃,只有这一套networking服务器,而且都崩溃了。 那么,这些机器有什么不同呢? 只有两件事,真的。 他们是我的最高stream量15.10个实例,平均发送和接收约5-10Mb /秒,有时甚至超过30-40。 他们是我的只有typesc4.xlarge或m4.xlarge实例。 最初,他们都是c4.xlarge ,但我用m4.xlargereplace他们来试图隔离问题。 m4.xlarge似乎不那么频繁,但是我仍然在10个networking服务器之间看到3或4次左右的崩溃。 […]
我有一个运行Apache和PHP的Linux服务器。 有时(大约每十打一次),在更新PHP文件和/或静态文件后,Apache将在5到10分钟后挂起(取决于服务器的活动)。 这个过程将会一个接一个地不响应,直到所有的过程被有效的“locking”。 这些文件是使用git checkout进行部署的。 据我了解,git做primefaces文件更新,我设法排除opcache每次部署后重置它。 有没有人经历过这样的情况,对可能的原因有个想法?
我的一个运行Oracle ASM / GRID的Oracle Linux 6.5服务器遇到内核崩溃,它没有响应我执行了硬重启。 服务器是Oracle Linux 6.5,内核2.6.39-400.214.3.el6uek.x86_64,32GB内存,35GB交换,硬件方面也没有警告。 / var / log / messages上的日志: Apr 19 08:22:14 srvx-prod kernel: [Hardware Error]: Machine check events logged Apr 19 08:22:14 srvx-prod kernel: BUG: unable to handle kernel paging request at 00000000ff8179b9 Apr 19 08:22:14 srvx-prod kernel: IP: [<ffffffff8105adc1>] task_rq_lock+0x61/0xb0 Apr 19 08:22:14 srvx-prod kernel: PGD 8020af067 […]
我有一个f23 Linux机器作为开发服务器运行,在过去的几个星期里,我已经login了几次,发现它已经被重置。 有一次它重新启动在我面前,似乎重置到BIOS,然后再次通电。 这似乎每2或3天发生一次。 服务器日志只显示正常的操作,cron等,直到重置和重启; https://paste.fedoraproject.org/518600/33737531/ Jan 01 20:01:02 pc03.config run-parts[19540]: (/etc/cron.hourly) starting mcelog.cron Jan 01 20:01:02 pc03.config run-parts[19544]: (/etc/cron.hourly) finished mcelog.cron Jan 01 20:09:10 pc03.config puppet-agent[19565]: Applied catalog in 0.03 seconds — Reboot — Jan 01 20:17:57 pc03.config systemd-journal[372]: Runtime journal is using 8.0M (max allowed 1.5G, trying to leave 2.3G free of 15.6G […]
今天早上我们有一个系统下线。 系统日志中唯一的是: Mar 20 15:27:15 fooserver systemd[1]: Received SIGINT. Mar 20 15:27:15 fooserver systemd[1]: Starting Synchronise Hardware Clock to System Clock… Mar 20 15:27:15 fooserver systemd[1]: Stopping system-ifup.slice. Mar 20 15:27:15 fooserver systemd[1]: Removed slice system-ifup.slice. Mar 20 15:27:15 fooserver rsyslogd: [origin software="rsyslogd" swVersion="8.4.2" x-pid="579" x-info="http://www.rsyslog.com"] exiting on signal 15. 然后五个小时的差距,直到手动重新启动。 当它恢复正常时,一切都按照原样运行。 没有其他的日志文件(我在/ var / […]
我们的SQL 2005服务器开始超时,最后在10月26日停止响应。 应用程序日志显示导致重启的大量17883事件。 重新启动后,一切都很好,但我们仍然在挠头。 快进6天…它再次发生。 然后再过两天。 昨晚。 今天已经发生了三次了。 时间线在发生时是相当可预测的: 反日志备份。 login失败“user2”。 转储 调度程序的另一个小型转储程序 重复17883次事件。 服务器一点一点地失败,直到它不接受任何请求。 重新启动是让我们再次去(一个创可贴) 有趣的是,服务器箱本身似乎没有任何问题。 CPU使用情况正常。 networking连接很好。 我们可以远程查看日志。 尽pipe如此,pipe理工作室最终还是陷入了困境。 今天,我们第一次尝试停止服务而不是重新启动。 除SQL Server服务外,所有服务都自行停止。 我们终于做了一个“终结任务”,并能够把一切都恢复起来。 它工作正常约30分钟,直到我们开始看到超时和17883的一次。 这一次,可能是因为我们没有重新开机,我们看到了17883混入了844个事件。 我们这里的整个技术团队正在摸索着…我们正在踢的一些想法: 当我们第一次遇到问题的时候,MS累积更新大约在同一时间。 从那以后,我们已经回滚了。 也许它并没有一路回滚。 情况看起来和感觉像一个未处理的“堆栈溢出”(无关),因为它开始很小,随着时间的推移而复合化。 问题在于没有显着的CPU使用率。 无论如何,我们并不是统治SQL 2005的bug。 也许我们增加了一个太多的导入过程,并且在这个盒子上达到了极限。 (难以置信)。 在其中一个崩溃时查看SQLDUMP0151.log。 有一些“login失败”,然后有两个堆栈转储。 第一个是正常堆栈转储,第二个是调度程序转储。 这是一个片段:(对于缺less换行符,感到抱歉) spid63使用'xpsqlbot.dll'版本'2005.90.3042'执行扩展存储过程'xp_qv'。 这只是一个信息性的消息; 无需用户操作。 2009-11-10 11:59:15 spid63使用'xplog70.dll'版本'2005.90.3042'执行扩展存储过程'xp_msver'。 这只是一个信息性的消息; 无需用户操作。 2009-11-10 12:02:33.24login错误:18456,严重性:14,状态:16. 2009-11-10 12:02:33.24loginlogin用户'standard_user2'失败。 [CLIENT:50.36.172.101] 2009-11-10 […]
如果我理解正确,下面的核心转储意味着cpu4已经崩溃了主机 如果我读下一行似乎在当时CPU 4被分配到NexentaStore Vm …所以如果我正确的,我可以说NexentaStor Vm崩溃我的ESXI 我对吗 ? 这个核心转储可以提供更多的信息吗? 2012-11-14T03:48:01.046Z cpu4:6089)0x41221f25ba08:[0x41803007abff]PanicvPanicInt@vmkernel#nover+0x56 stack: 0x3000000008, 0x41221f25ba 2012-11-14T03:48:01.046Z cpu4:6089)0x41221f25bae8:[0x41803007b4a7]Panic@vmkernel#nover+0xae stack: 0x2e067c00000010, 0x0, 0x1f25bb38, 2012-11-14T03:48:01.047Z cpu4:6089)0x41221f25bc18:[0x4180300a7823]TLBDoInvalidate@vmkernel#nover+0x45a stack: 0xca, 0x0, 0x0, 0x0, 0x0 2012-11-14T03:48:01.047Z cpu4:6089)0x41221f25bc68:[0x418030489e17]UserMem_CartelFlush@<None>#<None>+0xce stack: 0xcaa0b, 0x0, 0x0, 0x4 2012-11-14T03:48:01.047Z cpu4:6089)0x41221f25bd78:[0x41803048ab91]UserMemUnmapStateCleanup@<None>#<None>+0x58 stack: 0x0, 0x41221f25bd 2012-11-14T03:48:01.047Z cpu4:6089)0x41221f25be58:[0x41803048b97d]UserMemUnmap@<None>#<None>+0x104 stack: 0x41221f267000, 0x41221f25bf 2012-11-14T03:48:01.048Z cpu4:6089)0x41221f25be98:[0x41803048bf20]UserMem_Unmap@<None>#<None>+0xe3 stack: 0x426, 0x0, 0x41221f25bef8, 2012-11-14T03:48:01.048Z cpu4:6089)0x41221f25beb8:[0x4180304a5985]UW64VMKSyscallUnpackReleasePhysMemMap@<None>#<None>+0x18 stack: 0x10 […]
对于将我们的一个Xen虚拟机pipe理程序连接到我们的iSCSI SAN,我遇到了一些麻烦。 自从我们安装了iSCSI目标之后,我们就遇到了重新启动的问题。 这是它看起来像… Stopping iscsi: [ OK ] Shutting down system logger: [ OK ] Stopping iscsid: [ OK ] Shutting down interface eth0: [ OK ] Shutting down interface eth1: [ OK ] Shutting down loopback interface: [ OK ] 然后它挂在那里。 我们必须执行一个电源循环才能使其恢复在线状态。 我们用Xen 4运行CentOS 6.4 [root@hypervisor1 ~]# uname -a Linux hypervisor1.localhost 3.4.59-8.el6.centos.alt.x86_64 #1 […]
我有一个问题。 几天前,我的根服务器在停电后崩溃。 我意识到MySQL服务器不会启动。 在日志中,我发现InnoDB的ibdata1发生了一个错误。 我试过自动InnoDB恢复程序(innodb_force_recovery)。 我重新安装了MySQL服务器。 所有这些方式都没有帮助。 我已经尝试了一些从论坛和其他社区平台(my.cnf中的其他variables)获得的更多信息。 这种方式也没有帮助我。 所以我觉得我需要个人帮助。 问题是,我没有find任何“真正的”解决这个问题在互联网上。 目前,我有一个MariaDB服务器(版本5.5)在我的根。 直接启动服务器(mysqld –console)时的错误信息是: root@GPR0420:/var/lib# mysqld 131125 17:06:17 [Warning] An old style –language or -lc-message-dir value with language specific part detected: /usr/share/mysql/english/ 131125 17:06:17 [Warning] Use –lc-messages-dir without language specific part instead. 131125 17:06:17 InnoDB: The InnoDB memory heap is disabled 131125 17:06:17 InnoDB: Mutexes […]