Articles of 服务器崩溃

Ubuntu 11.04服务器崩溃 – 失败的命令:读FPDMA排队

我有一个新的Ubuntu服务器(11.04)不断崩溃,特别是在繁重的磁盘I / O(如进行备份)时。 它的驱动器被configuration为一个RAID 10,配有4个1TB Western Digital鱼子酱黑色硬盘。 我在崩溃时通过/ proc / kmsg看到的消息是“failed command:READ FPDMA QUEUED”。 这似乎是什么东西都搞乱了驱动器或软件RAID被打破? 直到今天下午,它在文件传输过程中崩溃,机器一直很好。从那以后,当我尝试运行备份时,它一直在崩溃,但它并不总是每次都是相同的文件或地方。 我怎么知道这是软件还是硬件故障? 我怎么知道它是SATA控制器还是其中一个磁盘? 而且,当我对它们进行延长的离线testing时,arrays中的所有4个驱动器“完成没有错误”。 这是从我重新启动直到它再次崩溃的/ proc / kmsg完整的输出: [356.076292] type = 1400 audit(1311983491.536:14):apparmor =“DENIED”operation =“open”parent = 1397 profile =“/ usr / lib / libvirt / virt -aa-helper”name =“/ dev / dm- 9“pid = 2222 comm =”virt-aa-helper“requested_mask =”r“denied_mask =”r“fsuid = 0 […]

服务器崩溃 – 公司的Web应用程序被closures – 考虑转移到在线主机 – 任何build议?

我在这里一团糟。 几年来,我们一直在我们办公室的本地服务器上运行我们自己定制的应用程序。 服务器有不错的日子和好日子 – 然而,服务器几天前就死了 – 在例行维护期间,我们雇用了一名自由职业者来安装打印机 – 而白痴却最终摧毁了服务器[我仍然推测他试图搞砸一点点,所以他可以收取固定自己造成的错误,只是这次超出了他自己的能力]。 我们的系统已经closures,我们非常期待在一台在线主机上托pipe我们的Web应用程序。 我对这里的build议很开放。 让我解释一下我们在这里运行的系统的性质。 我们的系统是PHP基于MySQL的 – 它是一个关键的数据时间为中心的协作系统。 基本上我们有一个公司的电子邮件地址,我们收到客户的要求。 我们的应用程序用于协调这些请求。 我们有一个cron作业定期在后台运行,或者实际上是预定的任务运行,它实际上从电子邮件帐户下载电子邮件,并将其转换成可以input到数据库查询的格式,然后从实际帐户中删除电子邮件它在我们的数据库,因此我们的系统可以协作使用它,而不必每次我们需要一个电子邮件时,使IMAP连接。 考虑到我们收到的大量请求,这个cron作业每三分钟运行一次 – 所以它的时间是以我们的应用程序为中心的。 时不时的计划任务挂起 – 所以我们有时不得不手动重新启动计划的任务。 计划任务还从邮件服务器下载附件,并将其作为平面文件存储在我们的Web应用程序中。 平均来说,电子邮件请求没有附件,但在例行公事中,平均附件大小在200K到10MB之间,尽pipe5MB以上的附件是非常罕见的。 大部分的下载是在邮件服务器到Web应用程序之间的。 我需要一个可靠的主机,几乎没有停机时间,因为我们不会运行一个网站,我们将运行一个非常关键的应用程序 – 我的意思是我们的业务取决于它,而我的老板距离字面上几英寸在这个时候打破他的理智:。 有人build议rackspace的云服务器 – 我正在看那些,但基本上,因为我是一个程序员 – 我的networking和托pipe方面的暴露并没有超出排除故障和debuggingWeb应用程序。 所以我需要一些关于我们所处的情况的build议 – 一个在线主机是一个好主意,还是需要投资于更好的networking硬件(现在我们已经抓住了一个自由职业者) – 考虑一个在线主机的选项是什么我们应该select什么样的方式提供物有所值的金钱。 便宜是好的,但如果这将是一个巨大的妥协质量…帮助请:(不要紧急 编辑==== build议是伟大的,但现在我正在考虑这种情况。 假设我select了云托pipe或专用服务器等在线服务 – 在这种情况下,我是否还需要设置故障转移系统?如果是这样 – 将如何设置故障转移系统?处理它。 我们是一个小公司,另一个IT人员对另一个主机的Managed Services有不太好的经验 – 就像你需要某个人不断地与pipe理服务上的主机协调,如果我们必须做一半的工作那么我们可以投入一些时间来pipe理我们自己的服务器,无论是本地还是云。 在上面定义的情况下 – 如果我们考虑在线专用主机,我们将如何设置故障转移系统?

Windows Server 2008 R2 + MSSQL Server R2每周崩溃一次,build议?

有人可以给我指针在哪里看,为了debugging为什么这个全新的Windows Server 2008 R2的安装与一个服务只有一个 〜5GB的 数据库到2个客户端的一个无损的MS SQL服务器R2每周崩溃一次? (所有的更新应用,没有其他的软件运行,没有其他的angular色,没有Hyper-V,裸机上运行英特尔Core i5 660 @ 3,33 Ghz,16GB RAM,64位Windows Server R2) 更新: 我查看了日志,过滤了Windows>系统日志中仅有的严重和错误,发现(翻译成英文):错误:服务控制pipe理器; 服务“SSPORT”不能启动,找不到文件CRITICAL:Kernel-Power 这些是这个日志中唯一看起来很严重的东西,可能是不相关的。 安全日志中没有任何内容,仅在应用程序中MSSQL抱怨无法连接到报告服务器,重新启动后(我在MS KB中读取,重新启动后它是正常的)

主机服务器的硬盘崩溃了

我的主机提供商告诉我,我目前使用的服务器硬盘已经崩溃,他们无法恢复大部分数据,他们只能设法从坠毁的硬盘(less于1%)恢复一些文件或文件夹利用法医恢复工具包。 他们声称,他们已经尝试了几种方法,如ext3grep,linux rescue,fsck和多个恢复工具,但没有成功。 我在这6年的所有数据都没有了,他们只会将托pipe过期date延长到另外90天。 有没有其他的方式来检索坠毁的硬盘上的数据? 我是一个Web开发人员,对IT方面的知识有限。 基本上我使用slax live CD通过networking将所有重要的文件从崩溃窗口复制到thumbdrive或另一台PC。 正如我所知道的MySQL存储在“/ var / lib / mysql”下,如果我们设法复制所有的“table.frm”并粘贴到另一台服务器,这是否会工作? 需要你的帮助。 谢谢。 问候,连连看

如何查明Windows Server 2008崩溃的原因?

我有Windows Server 2008在VMware下运行。 最近,它每天大概开始崩溃,连续100%的CPU使用率,并且在GUI中没有响应。 有没有一步一步的技术来追踪这个问题的根源? 我会看什么日志? PS问题出现在我试图卸载Acronis的时候,并且它被蓝屏蔽了。 但是,我不确定当前的错误是否与Acronis有关。

服务器冻结,没有内核恐慌

我们正在运行一个KVM节点,它不规则地崩溃,显示出一个非常奇怪的行为。 有趣的是,我们已经有另一个每1-2周崩溃的节点出现这个问题。 由于找不到硬件问题,我们开始将虚拟机迁移到新节点。 在我们迁移了50%的虚拟机大概一个星期后,新的节点崩溃,而“旧”的虚拟机运行良好(正常运行3周,我们几个月没有看到这么好的运行时间)。 当一个节点崩溃时,我们有时会在Supermicro IPMI上看到这些奇怪的东西: 我们也看到: “没有信号”就像服务器已closures(当然不是,在IPMI主页上也没有显示关机) 正常的login屏幕或服务器的其他正常输出,但冻结 我们从来没有看到的是在崩溃之前的核心恐慌或至less一些日志中的消息,完全沉默,直到突然灯熄灭。 随着问题从一台服务器“移动”到另一台(一台全新的机器),我认为只剩下几个选项: 一个特定的VM正在造成这个问题 内核错误 硬件问题关于我们的设置 有关机器的更多信息: 最新内核的CentOS 7(3.10.0-514.2.2.el7.x86_64) 带有冗余电源的Supermicro机箱 带有最新BIOS版本的Supermicro X10DRi / X10DRWi 英特尔至强E5-2630 v3 / v4 512 GB DDR4 ECC RAM(三星服务器内存) 145个虚拟机正在运行(远离饱和的RAM和CPU,也由于KSM) 带有8/16 SSD的软件RAID-10 有没有人看到这种行为或可以说一些关于控制台上的奇怪的“消息”? 我从来没有见过这样的事情,甚至不知道我应该如何描述这个谷歌search。 目前我们不知道下一步应该做什么,因为它可能是一切。 提前致谢!

排除可怕的0x9C蓝屏故障

我们有一台运行Windows Server 2003 R2的Dell PowerEdge 2950,安装了Service Pack 2的Enterprise x64。 最近,我们遇到了与该服务器发生多个STOP错误。 幸运的是,它是作为一个机器故障的地方,所以它不会影响我们的生产环境。 显示在服务器日志中的错误是这样的: Event Type: Error Event Source: System Error Event Category: (102) Event ID: 1003 Description: Error code 000000000000009c, parameter1 0000000000000004, parameter2 fffffadf90881240, parameter3 00000000f2000000, parameter4 0000000000060151. 到目前为止,我所能find的最好的东西是9C错误是某种通用硬件问题。 其他参数在缩小这个范围方面一直没有用。 自去年投入使用以来,没有任何硬件改动。 它有一个双胞胎盒子是相同的(主要是这个故障作为一个故障)没有经历的行为。 最近的一次软件更新是在2009年4月16日应用了多个安全更新。 蓝屏在5/9/2009开始发生。 有没有任何诊断可以帮助解决这个问题?

Windows 2012 R2服务器崩溃,没有转储文件

我有一个Windows 2012 R2专用服务器。 64 GB RAM。 坐在远程数据中心。 它每天崩溃约1-2次。 我在互联网上有一个KVM,我可以查看屏幕。 屏幕显示Critical_Process_Died。 说收集信息卡在0%。 我从来没有得到一个转储文件。 我configuration了一个小内存转储,并将页面文件设置为12GB的系统推荐。 玩了这些设置,没有运气。 事件查看器中没有任何事件表明任何types的系统问题,或与此崩溃非常有帮助。 我有一堆在服务器上的自定义应用程序以及一些服务。 事件查看器中没有任何关于这些问题的任何问题。 服务器运行良好,直到它冻结和崩溃。 我升级了RAID卡驱动程序,并运行CPU,内存和硬盘驱动器诊断程序。 没有错误。 RAID日志中没有显示任何问题。 我试图find其他方法来解决这个问题,并指出我在正确的方向。 请让我知道是否有任何其他信息,我可以提供,可以更好地查明问题。 更新:机器规格 操作系统:Windows Server 2012 R2 Standard 64位 CPU:Intel Xeon E5 1650 v2 @ 3.50GHz 27°C Ivy Bridge-EP / EX 22nm技术 RAM:64.0GB DDR3 @ 799MHz(11-11-11-28) 主板:Supermicro X9SRE / X9SRE-3F / X9SRi / X9SRi-3F(SOCKET […]

无法启动kdump

我的系统总是崩溃。 所以我决定启用kdump来查看问题,因为我无法看到日志文件上可能的错误。 我按照步骤在这里设置了一个站点的kdump 。 我的服务器在CentOS 5.8和16GB RAM上运行。 以下是我configurationkdump的步骤: 1. Install kexec-tools, `yum install kexec-tools` and follow the installation steps 2. Edit the /boot/grub/grub.conf to configure the kdump memory usage 3. Edit the /etc/kdump.cof to configure the target type to /var/crash/ and core_collector 4. Enable kdump through `chkconfig kdump on`. 5. Reboot the server 当我运行service kdump […]

Ubuntu 10.04服务器崩溃

我运行一个Ubuntu 10.04(x64)作为一个web / mysql服务器。 服务器变得对SSH,Ping,HTTP等没有反应,并且物理访问机器的技术人员给我发送了这个屏幕抓图: http://img442.imageshack.us/img442/389/img00062201012211332.jpg 从重新启动之前连接的显示器(情况已修复)。 我不知道这个信息保存在什么日志里,因为在重新启动后检查日志后我找不到文本。 任何人都可以帮助我调查发生了什么事情,并确保它不会再发生? 谢谢