我最近密切关注一个启用了SMART的硬盘(连接到一个OSX服务器,这对SMART输出不是很有用)。 该驱动器肯定是失败的 – 头部点击,SMARTtesting失败(尽pipeSMART overall-health self-assessment test result: PASSED )等,我有一个替代品,将在您阅读这个DD'ing。 我只是有一个关于SMART输出的问题(不是驱动器是否失败!)。 Remaining百分比低于发现第一个错误后剩余的testing数量。 问题是 – find错误后SMARTtesting是否继续? 如果没有,请问有没有人知道是否有办法强制它完成并testing整个驱动器? Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Extended offline Completed: read failure 80% 18302 406986 谢谢你的时间!
我在一台没有安装的服务器上面对一个问题,前面的人不在这里解释我什么。 有些进程由于什么似乎是磁盘故障而崩溃,所以我在日志中search并在/var/log/messagesfind类似这样的行: kernel: [277146.149980] sd 0:1:0:0: [sda] Sense Key : Medium Error [current] kernel: [277146.149986] sd 0:1:0:0: [sda] Add. Sense: Unrecovered read error 重启和使用fsck没有解决这个问题。 我不知道这些磁盘是在硬件还是软件RAID上。 我知道LVM没有安装在机器上。 这里备份不是问题,这个服务器不包含磁盘上的信息,重要的数据通过NFS挂载。 所以我可以根据需要重新安装机器,而不用担心磁盘的当前内容。 该机器是运行Debian Squeeze 64位的Dell PowerEdge R510。 制造商(戴尔)的诊断工具不能在Debian Squeeze上运行,我试图安装并运行它们,但是它们不起作用,所以我必须手动进行诊断。 这里是我可以提供给你的一些信息。 另外,如果需要的话,我可以物理访问机器,而且只看到三个磁盘:三个每个600GB的SCSI希捷磁盘。 # lshw -class disk *-disk:0 description: SCSI Disk product: Virtual Disk vendor: Dell physical id: 1.0.0 bus info: […]
我有Ubuntu 12.04安装软件RAID 5. Dmesg开始不断显示I / O错误。 我想重启系统,瞧,它卡住了 GRUB ERROR Loading 21 然后,我用一个Ubuntu 14.04 USB闪存驱动器启动,然后试图挂载分区/ dev / sdb,但我经常得到这个错误 /dev/sdb is already mounted or the directory /home/mnt_point is busy 我通过以下命令validation它 $sudo blkid -c /dev/null -o list device fs_type label mount point UUID ——————————————————————————- /dev/sda1 ext4 / ed69e0ac-a581-4eeb-a2d8-0d42d8808713 /dev/sda2 swap <swap> 03620bd6-33f3-4f16-82ec-25aa62692cfa /dev/sdb1 linux_raid_member (not mounted) 2fbc2047-9b0e-07d6-1554-b32f36a2b9d0 /dev/sdc1 […]
我有一个从红谷仓服务器已经抛出错误访问其本地SATA闪存驱动器。 这里有一些事实: 我运行的Ubuntu 15.10,虽然其他两个类似的Supermicro服务器也是如此,没有任何问题。 根驱动器是一个SATA闪存驱动器。 如果我重新启动系统,至less有一天会好起来,然后就会一直抛出这些错误。 我们尝试重新安装所有的RAM并运行memtest86几天,没有问题。 我们从一个U盘启动系统,没有连接根驱动器,几天之内就没有问题了。 我们从USB启动,挂载有问题的驱动器,并且每5秒钟有一个脚本触摸一个文件。 这跑了好几天没有错误。 我们想到了操作系统的腐败,但是为什么要在显示之前等待呢? 如果驱动器出现故障,SMART为什么不报告,为什么在奇怪之前似乎工作了很长时间? 我们还能做些什么来调查这个失败? 我们有点卡住了。 以下是远程控制台的屏幕截图。 我看到这个,如果我尝试login,然后它返回到我的login问题。
我的一台服务器有一个由两个240GB SSD组成的RAID1arrays。 它通过Linuxpipe理/控制,而不是通过硬件卡。 最近,没有明显的原因,arrays需要重build。 我最近几次重新启动服务器,所以也许有一个失败的关机,迫使它。 然而,重build花费了比预期长得多的时间(〜5天),这让我怀疑其中一个驱动器是否失败。 cat /proc/mdstat显示: root@i3261:~# cat /proc/mdstat Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] md0 : active raid1 sdb1[1] sda1[0] 242153280 blocks super 1.2 [2/2] [UU] md1 : active raid1 sdb5[1] sda5[0] 7768000 blocks super 1.2 [2/2] [UU] unused devices: <none> blocks之间的三angular洲似乎非常高。 特别是因为这些SSD被认为是相同的。 这是否表示驱动器故障?
在linux上的HPACUCLI cmd有一个问题,在启动一个HP P600卡报告错误,但我无法确定它是哪个驱动器。 而不是列出单独的驱动器状态,我得到一个arrays重复的驱动器状态 插槽6中的Smart Array P600 数组A Logical Drive: 1 Size: 7.3 TB Fault Tolerance: RAID 6 (ADG) Heads: 255 Sectors Per Track: 32 Cylinders: 65535 Stripe Size: 128 KB Status: OK Array Accelerator: Enabled Parity Initialization Status: Initialization Failed Unique Identifier: 600508B10010424246525646544B0013 Disk Name: /dev/cciss/c0d0 Mount Points: /mnt/areca3 1.3 TB Logical Drive Label: […]
我不想以试错的方式来解决这个问题,因为我知道如果我想丢失数据,这是最好的办法。 我有一个4 * 2TB磁盘在RAID5服务器(是的,我知道这不是明智的 )在Ubuntu 14.04。 我的大部分数据都在RAID 5的/home ,而/在RAID 1上。 我在救援模式下启动服务器,但我无法弄清楚: 如果问题是软件或硬件, 如果有重新安装RAID来恢复这些数据的方法。 我仔细阅读了“ 恢复失败的软件RAID(raid.wiki.kernel.org)” ,但是由于我对自己的诊断并不是很有信心,因此我想对正在发生的事情以及如何继续进行一些正确的判断如果有什么事要做 我试过的唯一的方法就是安装我未安装的mds设备,该设备为md2 mount /dev/md2 /mnt/ ,但我无法安装md0和md3,因为我被告知/dev/md3: can't read superblock 。 到目前为止,这是我检查: 编辑分手-l root@rescue:/mnt# parted -l Model: ATA ST2000DM001-1CH1 (scsi) Disk /dev/sda: 2000GB Sector size (logical/physical): 512B/4096B Partition Table: gpt Disk Flags: Number Start End Size File system Name Flags 1 […]
我们有一台HP ProLiant DL385 G7服务器,它是一台vmware ESXI主机,发生故障的硬盘 – 该硬盘是HP SAS-MDL,7.2 K,2TB。 当我们启动服务器时,我们得到了附加信息,我们不确定我们应该select哪个选项(f1或f2),因为我们在硬盘上有重要的数据,我们不想冒失去的风险,也没有最近的备份。 是否值得尝试通过接受数据丢失和重新启用逻辑驱动器来启动故障硬盘? 硬盘似乎旋转起来,没有发出任何噪音,所以我不认为它是一个机械相关的故障。 编辑磁盘没有在任何types的存储arrays,这是可怜的configuration(显然)从以前的IT人
我有zfsonlinux(Centos 7)和raidz1。 我有麻烦:两个磁盘正在死亡。 第一个磁盘在SMART和Reallocated_Sector_Ct错误中存在Raw_Read_Error_Rate故障(磁盘已用尽空闲扇区来重新定位数据) 第二个磁盘有Reallocated_Sector_Ct错误,但仍有备份扇区。 我已经将第一个磁盘更改为新的磁盘,并且zfs已经开始重新同步。 开始的时候速度是〜2MB / s,但是一段时间后下降到20KB / s甚至更less,并且保持了几天的很小! 还有更多的错误: Jul 9 06:14:09 shaggycat-desktop smartd[966]: Device: /dev/sdf [SAT], FAILED SMART self-check. BACK UP DATA NOW! Jul 9 06:14:11 shaggycat-desktop smartd[966]: Device: /dev/sdf [SAT], 488 Currently unreadable (pending) sectors Jul 9 06:14:11 shaggycat-desktop smartd[966]: Device: /dev/sdf [SAT], 107 Offline uncorrectable sectors Jul 9 06:44:08 […]
我刚刚发现我的2850琥珀色的磁盘错误信息,E0D76 BP驱动器4失败。 驱动器是ULTRA 320 SCSI。 自从这台服务器成立以来,我已经有一段时间了,所以我不能绝对确定我的记忆是准确的,但我认为这是事实 驱动器0 73GB 驱动器1 73GB配对为RAID 1 驱动器2 146GB Drive 3 146GB配对为RAID 1 驱动4个146GB的热插拔 (我有一个狡猾的146GB驱动器,让我闪烁琥珀色,因为预计会失败,但是我认为没有什么可以将它作为驱动器4中的热插拔) 我想我有configuration为 Raid Ch- 0 ID 0 ONLIN A00-00 1 ONLIN A00-01 2 ONLIN A01-00 3 ONLIN A01-01 4 HOTSP 所以在检查configuration我现在看到 看到驱动器4失败,我将其删除,重新安装并重新启动,但仍然失败。 所以我重新启动没有它给了一个POST警告,但纠正LED错误从琥珀色到蓝色。 我的问题是,有人可以帮助我了解发生了什么,我该如何恢复? [编辑]什么是监控硬件RAID故障的最佳方式,其PERC 4e / Di控制器,操作系统是Windows Web Server 2008 R2。 从Windows内部可以监视RAIDarrays的状态吗? 在事件日志中是否有一些错误可以挂钩警告事件?