确定30分钟后SSD故障的原因

我们在一个本地托pipe公司的塔式服务器中安装了一个64GB SSD驱动器。这个驱动器和input系统是在六个月前build立的，全新的部件。

直到本周末，SSD /系统才能完美运行。我们正在运行CentOS 6.2

完全启动后，系统可以使用大约20-30分钟（与时间没有真正的一致性），然后驱动器开始动作。

图书馆开始说他们无法加载，ssh开始拒绝公共密钥login。关机开始说“input/输出错误”。有些程序开始指出驱动器是只读的。

只有25GB的64GB被使用。

我找不到任何指示发生的错误。我尝试从驱动器上的活动光盘运行fsck，它显示没有问题，大部分时间启动工作正常。有一个启动，说“找不到操作系统”，但这不再发生。

我在哪里可以find关于发生什么的日志？是否还有其他磁盘检查我应该做？这似乎是一个可修复的问题，而不是我需要一个新的驱动器。

更新：

我重启服务器后启用了SMART。经过1个小时的正常运行和正常的系统运行（运行服务是httpd，mysql，但很less到没有stream量），突然事情就停止工作。正常运行时间内，它通过了智能健康检查的PASS。一小时后，我再次尝试（通过webmin），现在说SMART被禁用。

硬盘驱动器现在显示了我以前见过的相同的问题 – 尝试大多数命令显示“input/输出错误”。

现在运行一个智能健康检查显示：

Log Sense failed, IE page [scsi response fails sanity test]

我能做些什么来弄清楚在一段随机的时间之后，这是什么原因导致失败？它完全运行30-60分钟，然后开始这样奇怪。

更新2

有些人要求我尝试dmesg，结果如下： http : //www.pastie.org/private/hk7jfhxilj7ypy828irna 。其他人build议，我不认为这是驱动器，但可能是驱动器控制器。我不明白如何确定错误是否是控制器与驱动器 – 除了尝试不同的驱动器。如果我不得不购买更换的主板或驱动器，我需要知道哪个是第一个故障。

运行fsck显示：

 fsck from util-linux-ng 2.17.2 e2fsck 1.41.12 (17-May-2010) fsck.ext4: Superblock invalid, trying backup blocks... fsck.ext4: Bad magic number in super-block while trying to open /dev/mapper/vg_192-lv_root The superblock could not be read or does not describe a correct ext2 filesystem. If the device is valid and it really contains an ext2 filesystem (and not swap or ufs or something else), then the superblock is corrupt, and you might try running e2fsck with an alternate superblock: e2fsck -b 8193 <device>

固态硬盘是非常脆弱的。杰夫·阿特伍德在这里列出了一些失败率。他们会失败，没有任何警告，把你的数据变成遥远的记忆。

看起来是时候到RMA并从备份恢复。这不应该成为一个问题，因为你没有在一个非RAID磁盘上运行生产服务器，对吗？而且你肯定有最近的备份可以用来恢复你的脚，对吧？

对？

如果您的硬盘驱动器具有SMART统计信息（并且几乎可以保证有这些统计信息），请使用SMART实用程序来清除所有可用的消息和统计信息。答案可能在那里，或至less有一些提示，看看下一步。

编辑

想想你可能会误导你的怀疑。您的驱动器控制器可能是问题的一部分。查看收集的指标以及创build的日志。现在把它放在犯罪嫌疑人的圈子里。在certificate无辜之前，IT中的一切都是有罪的。

我的家用电脑在64Gb Crucial / Micron M4 SSD上运行EXT-4文件系统的时候出现了同样的错误。我在我的设备上运行smartctl -a，并且通过了所有testing。我从systemrescue cd和reran smartctl启动了我的服务器，并检测到旧的固件0009已知会导致问题并提供修复。我的固件现在处于070H版本，问题现在消失了。所以在我的情况下，解决scheme是访问关键网站，并下载一个小型的可引导的ISO映像来更新我的SSD固件。没有更多的input/输出错误