rsync之后的降级数组事件,但后来的mdadm和smartctl不显示任何问题

我在我的cron rsync激活,并开始在每个rsync后收到电子邮件

这是从mdadm自动生成的邮件消息
在titan707上运行

在md设备/ dev / md / 2上检测到降级数组事件。

忠实的你等等

 PS / proc / mdstat文件当前包含以下内容:

个性:[线性] [多重] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
 md1:激活raid1 sdb3 [1] sda3 [0]
       7995840超级块1.2 [2/2] [UU]

 md0:激活raid1 sdb2 [1](F)sda2 [0]
       499712块超级1.2 [2/1] [U_]

 md2:active raid1 sdb4 [1](F)sda4 [0]
       968130304块超级1.2 [2/1] [U_]

未使用的设备: 

但后来smartctl和mdadmin不显示任何问题,请参阅下面的mdadm,smartctl的日志。

 $ cat / proc / mdstat 
个性:[raid0] [raid1] [raid6] [raid5] [raid4] [raid10] [线性] [multipath] 
 md0:活动raid1 sda1 [0] sdb1 [1]
       33553336块超级1.2 [2/2] [UU]

 md1:活动raid1 sdb2 [1] sda2 [0]
       524276块超级1.2 [2/2] [UU]

 md3:active raid1 sdb4 [1] sda4 [0]
       1822442815超级块1.2 [2/2] [UU]

 md2:激活raid1 sdb3 [1] sda3 [0]
       1073740664超级块1.2 [2/2] [UU]

未使用的设备: 
 $ smartctl -a / dev / sda
 smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-24-generic](本地构build)
版权(C)2002-11由布鲁斯艾伦,http://smartmontools.sourceforge.net

 ===信息部分的开始===
型号系列:希捷Barracuda XT
设备型号:ST33000651AS
序列号:Z291E1TG
 LU WWN设备ID:5 000c50 03f2f8fbc
固件版本:CC45
用户容量:3,000,592,982,016字节[3.00 TB]
扇区大小:512字节逻辑/物理
设备是:在smartctl数据库[详细使用:-P显示]
 ATA版本是:8
 ATA标准是:ATA-8-ACS修订版4
当地时间:Wed Mar 19 09:20:26 2014 CET
 SMART支持是:可用 - 设备具有SMARTfunction。
 SMART支持是:已启用

 ===开始读取智能数据部分===
 SMART全身健康自我评估testing结果:PASSED

一般SMART值:
离线数据收集状态:(0x82)离线数据收集活动
                    完成没有错误。
                    自动离线数据收集:已启用。
自检执行状态:(0)完成上一个自检程序
                    没有错误或没有自检过 
                    已经运行。
完成离线的总时间 
数据收集:(600)秒。
离线数据收集
function:(0x7b)SMART立即执行离线。
                    自动离线数据收集开/关支持。
                    在新的时候挂起脱机收集
                    命令。
                    支持脱机表面扫描。
                    支持自检。
                    传输自检支持。
                    支持select性自检。
 SMARTfunction:(0x0003)在input之前保存SMART数据
                    省电模式。
                    支持SMART自动保存定时器。
错误loggingfunction:(0x01)支持错误logging。
                    通用日志logging支持。
短暂的自检程序 
推荐的投票时间:(1)分钟。
扩展的自检程序
build议的投票时间:(255)分钟。
运送自检程序
推荐的投票时间:(2)分钟。
 SCTfunction:(0x103f)支持SCT状态。
                    支持SCT错误恢复控制。
                    支持SCTfunction控制。
                     SCT数据表支持。

 SMART属性数据结构修订号:10
具有阈值的供应商特定SMART属性:
 ID#ATTRIBUTE_NAME标记值最差值types已更新WHEN_FAILED RAW_VALUE
   1 Raw_Read_Error_Rate 0x000f 117 099 006预故障总是 -  152015022
   3 Spin_Up_Time 0x0003 094 094 000预失败始终 -  0
   4 Start_Stop_Count 0x0032 100 100 020 Old_age始终 -  6
   5 Reallocated_Sector_Ct 0x0033 100 100 036预失败始终 -  0
   7 Seek_Error_Rate 0x000f 075 060 030预失败总是 -  40795438
   9 Power_On_Hours 0x0032 077 077 000 Old_age始终 -  20281
  10 Spin_Retry_Count 0x0013 100 100 097预失败始终 -  0
  12 Power_Cycle_Count 0x0032 100 100 020 Old_age始终 -  6
 183 Runtime_Bad_Block 0x0032 100 100 000 Old_age始终为0
 184 End-to-End_Error 0x0032 100 100 099 Old_age始终为0
 187 Reported_Uncorrect 0x0032 100 100 000 Old_age始终为0
 188 Command_Timeout 0x0032 100 100 000 Old_age始终 -  0
 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always  -  0
 190 Airflow_Temperature_Cel 0x0022 053 046 045 Old_age始终 -  47(最小/最大43/54)
 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age始终为0
 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always  -  4
 Load_Cycle_Count 0x0032 100 100 000 Old_age Always  -  6
 194 Temperature_Celsius 0x0022 047 054 000 Old_age Always  -  47(0 23 0 0)
 195 Hardware_ECC_Recovered 0x001a 021 003 000 Old_age Always  -  152015022
 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always  -  0
 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline  -  0
 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age始终为0
 240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline  -  253145372446521
 241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline  -  2852285811
 242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline  -  811308464

 SMART错误日志版本:1
没有错误logging

 SMART自检日志结构修订版本号1
数量Test_Description状态剩余使用期限(小时)LBA_of_first_error
 #1扩展脱机完成无误00%20193  - 
 #2短线下完成无误00%20185  - 
 #3扩展离线完成无误00%5723  - 

 SMARTselect性自检日志数据结构修订版本号1
  SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
     1 0 0 Not_testing
     2 0 0 Not_testing
     3 0 0 Not_testing
     4 0 0 Not_testing
     5 0 0 Not_testing
select性自检标志(0x0):
  扫描选定的跨度后,不要读取扫描剩余的磁盘。
如果select性自检在上电时挂起,则延迟0分钟后恢复。

 $ smartctl -a / dev / sdb
 smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-24-generic](本地构build)
版权(C)2002-11由布鲁斯艾伦,http://smartmontools.sourceforge.net

 ===信息部分的开始===
型号系列:希捷Barracuda XT
器件型号:ST33000651AS
序列号:Z2917JDM
 LU WWN设备ID:5 000c50 03f1b6146
固件版本:CC45
用户容量:3,000,592,982,016字节[3.00 TB]
扇区大小:512字节逻辑/物理
设备是:在smartctl数据库[详细使用:-P显示]
 ATA版本是:8
 ATA标准是:ATA-8-ACS修订版4
当地时间:Wed Mar 19 09:20:53 2014 CET
 SMART支持是:可用 - 设备具有SMARTfunction。
 SMART支持是:已启用

 ===开始读取智能数据部分===
 SMART全身健康自我评估testing结果:PASSED

一般SMART值:
离线数据收集状态:(0x82)离线数据收集活动
                    完成没有错误。
                    自动离线数据收集:已启用。
自检执行状态:(0)完成上一个自检程序
                    没有错误或没有自检过 
                    已经运行。
完成离线的总时间 
数据收集:(609)秒。
离线数据收集
function:(0x7b)SMART立即执行离线。
                    自动离线数据收集开/关支持。
                    在新的时候挂起脱机收集
                    命令。
                    支持脱机表面扫描。
                    支持自检。
                    传输自检支持。
                    支持select性自检。
 SMARTfunction:(0x0003)在input之前保存SMART数据
                    省电模式。
                    支持SMART自动保存定时器。
错误loggingfunction:(0x01)支持错误logging。
                    通用日志logging支持。
短暂的自检程序 
推荐的投票时间:(1)分钟。
扩展的自检程序
build议的投票时间:(255)分钟。
运送自检程序
推荐的投票时间:(2)分钟。
 SCTfunction:(0x103f)支持SCT状态。
                    支持SCT错误恢复控制。
                    支持SCTfunction控制。
                     SCT数据表支持。

 SMART属性数据结构修订号:10
具有阈值的供应商特定SMART属性:
 ID#ATTRIBUTE_NAME标记值最差值types已更新WHEN_FAILED RAW_VALUE
   1 Raw_Read_Error_Rate 0x000f 117 099 006预失败始终 -  144398334
   3 Spin_Up_Time 0x0003 094 094 000预失败始终 -  0
   4 Start_Stop_Count 0x0032 100 100 020 Old_age Always  -  6
   5 Reallocated_Sector_Ct 0x0033 100 100 036预失败始终 -  0
   7 Seek_Error_Rate 0x000f 075 060 030预失败总是 -  41707682
   9 Power_On_Hours 0x0032 077 077 000 Old_age始终 -  20281
  10 Spin_Retry_Count 0x0013 100 100 097预失败始终 -  0
  12 Power_Cycle_Count 0x0032 100 100 020 Old_age始终 -  6
 183 Runtime_Bad_Block 0x0032 100 100 000 Old_age始终为0
 184 End-to-End_Error 0x0032 100 100 099 Old_age始终为0
 187 Reported_Uncorrect 0x0032 100 100 000 Old_age始终为0
 188 Command_Timeout 0x0032 100 100 000 Old_age始终 -  0
 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always  -  0
 190 Airflow_Temperature_Cel 0x0022 057 049 045 Old_age始终 -  43(最小/最大39/51)
 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age始终为0
 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always  -  4
 Load_Cycle_Count 0x0032 100 100 000 Old_age Always  -  6
 194 Temperature_Celsius 0x0022 043 051 000 Old_age Always  -  43(0 23 0 0)
 195 Hardware_ECC_Recovered 0x001a 021 003 000 Old_age始终 -  144398334
 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always  -  0
 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline  -  0
 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age始终为0
 240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline  -  38959648362297
 241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline  -  162809159
 242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline  -  1526676264

 SMART错误日志版本:1
没有错误logging

 SMART自检日志结构修订版本号1
数量Test_Description状态剩余使用期限(小时)LBA_of_first_error
 #1扩展脱机无误完成00%20218  - 
 #2短线下完成无误00%20185  - 
 #3扩展离线完成无误00%5723  - 

 SMARTselect性自检日志数据结构修订版本号1
  SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
     1 0 0 Not_testing
     2 0 0 Not_testing
     3 0 0 Not_testing
     4 0 0 Not_testing
     5 0 0 Not_testing
select性自检标志(0x0):
  扫描选定的跨度后,不要读取扫描剩余的磁盘。
如果select性自检在上电时挂起,则延迟0分钟后恢复。

 $ 
 $ mdadm -D / dev / md0 
的/ dev / md0的:
        版本:1.2
  创作时间:星期五七月27 13:40:57 2012
     团队副本:raid1
     数组大小:33553336(32.00 GiB 34.36 GB)
  使用的开发尺寸:33553336(32.00 GiB 34.36 GB)
    RAID设备:2
  设备总数:2
    持久性:超级块是持久的

    更新时间:2014年3月17日星期一12:24:57
          状态:干净 
 有源器件:2
工作设备:2
 失败的设备:0
  备用设备:0

           名称:救援:0
            UUID:28ad38a2:f3df9bbc:2f1f4d98:2006ce16
         事件:22

    数量主要次要RaidDevice状态
        0 8 1 0主动同步/ dev / sda1
        1 8 17 1主动同步/ dev / sdb1
 $ mdadm -D / dev / md1
的/ dev / MD1:
        版本:1.2
  创作时间:星期五七月27 13:40:57 2012
     团队副本:raid1
     数组大小:524276(512.07 MiB 536.86 MB)
  使用的开发大小:524276(512.07 MiB 536.86 MB)
    RAID设备:2
  设备总数:2
    持久性:超级块是持久的

    更新时间:Wed Mar 19 06:25:43 2014
          状态:干净 
 有源器件:2
工作设备:2
 失败的设备:0
  备用设备:0

           名称:救援:1
            UUID:659022e1:e93cfcb9:c7b533ae:5a81c83b
         事件:25

    数量主要次要RaidDevice状态
        0 8 2 0主动同步/ dev / sda2
        1 8 18 1主动同步/ dev / sdb2
 $ mdadm -D / dev / md2
的/ dev / MD2:
        版本:1.2
  创build时间:2012年7月27日星期五13:40:58
     团队副本:raid1
     arrays大小:1073740664(1024.00 GiB 1099.51 GB)
  使用的开发大小:1073740664(1024.00 GiB 1099.51 GB)
    RAID设备:2
  设备总数:2
    持久性:超级块是持久的

    更新时间:3月19日星期三09:21:40 2014
          状态:干净 
 有源器件:2
工作设备:2
 失败的设备:0
  备用设备:0

           名称:救援:2
            UUID:b79d3e48:62b55d0b:8501355c:2f905ef2
         事件:34

    数量主要次要RaidDevice状态
        0 8 3 0主动同步/ dev / sda3
        1 8 19 1主动同步/ dev / sdb3
 $ mdadm -D / dev / md3
的/ dev / MD3:
        版本:1.2
  创build时间:2012年7月27日星期五13:40:58
     团队副本:raid1
     arrays大小:1822442815(1738.02 GiB 1866.18 GB)
  使用的开发尺寸:1822442815(1738.02 GiB 1866.18 GB)
    RAID设备:2
  设备总数:2
    持久性:超级块是持久的

    更新时间:Wed Mar 19 09:21:09 2014
          状态:干净 
 有源器件:2
工作设备:2
 失败的设备:0
  备用设备:0

           名称:救援:3
            UUID:fdb07043:8bd52646:9f267e1b:d0a43f0e
         事件:22

    数量主要次要RaidDevice状态
        0 8 4 0主动同步/ dev / sda4
        1 8 20 1主动同步/ dev / sdb4
 $ 

我在dmesg中也找不到任何东西

 $ dmesg |  grep“md”[1.957908] md:注册为0级的raid0个性[1.959091] md:注册为级别1的raid1个性[2.069112] md:bind [2.070684] md:bind [2.072032] md:bind [2.116159] md:bind [2.117310] md / raid1:md3:2个镜像中有2个镜像处于活动状态[2.117380] md3:检测到的容量从0更改为1866181442560 [2.124174] md:bind [2.138621] md3:未知分区表[2.140113] md:bind [2.141326 ] md / raid1:md2:2个镜像中有2个镜像处于活动状态[2.141398] md2:检测到的容量从0变为1099510439936 [2.162685] md2:未知分区表[2.230596] md:bind [2.231715] md / raid1:md1: 2个镜像中的2个[2.231786] md1:检测到的容量从0到536858624变化[2.233100] md1:未知分区表[2.436160] md:bind [2.437387] md / raid1:md0:2个镜像中有2个为活动[2.437456 ] md0:检测到的容量从0变化到34358616064 [2.444765] md0:未知的分区表[2.456675] md:raid6为6级注册的个性[  2.456738] md:raid5个性,注册等级5 [2.456797] md:raid4个性注册等级4 [2.458570] md:raid10个性注册等级10 [2.462736] md:线性个性注册等级-1 [2.463538] md:multipath个性注册为等级-4 [8.213448] EXT4-fs(md2):具有有序数据模式的已装入文件系统。 选项:(null)[11.334852]在/ dev / md0上添加33553332k交换。 优先级:-1范围:1跨:33553332k [11.337379] EXT4-fs(md2):warning:达到检查时间,build议运行e2fsck [11.359536] EXT4-fs(md2):重装。 选项:(null)[11.700105] EXT3-fs(md1):警告:checktime已到达,build议运行e2fsck [11.778306] EXT3-fs(md1):使用内部日志[11.778310] EXT3-fs(md1)有序的数据模式[12.155704] EXT4-fs(md3):警告:检查时间已到,build议运行e2fsck [12.218303] EXT4-fs(md3):装入有序数据模式的文件系统。 选项:(null)$ dmesg |  grep“sd”[1.870244] sd 0:0:0:0:[sda] 5860533168 512字节逻辑块:(3.00 TB / 2.72 TiB)[1.870251] sd 0:0:0:0:附加scsi通用sg0types0 [1.870487] sd 0:0:0:0:[sda]写保护closures[1.870637] sd 1:0:0:0:[sdb] 5860533168 512字节逻辑块:(3.00 TB / 2.72 TiB)[ 1.870638] sd 1:0:0:0:附加scsi通用sg1types0 [1.870667] sd 1:0:0:0:[sdb]写保护closures[1.870668] sd 1:0:0:0:[sdb ]模式Sense:00 3a 00 00 [1.870697] sd 1:0:0:0:[sdb]写入caching:启用,读取caching:启用,不支持DPO或FUA [1.870989] sd 0:0: 0:[sda]模式Sense:00 3a 00 00 [1.870999] sd 0:0:0:0:[sda]写入caching:启用,读取caching:启用,不支持DPO或FUA [1.916610] sda:sda1 sda2 sda3 sda4 sda5 [1.917195] sd 0:0:0:0:[sda]连接SCSI磁盘[1.928325] sdb:sdb1 sdb2 sdb3 sdb4 sdb5 [1.929042] sd 1:0:0:0:[sdb] [2.069112] md:bind [2.070684] md:bind [2.072032] md:bind [2.116159] md:bind [2.124174] md:bind [2.14011  3] md:bind [2.230596] md:bind [2.436160] md:bind 

Cron脚本我作为mybackup用户运行,以在我pipe理的两台服务器之间同步内容

 #!/斌/庆典
 #按照说明从https://blogs.oracle.com/jkini/entry/how_to_scp_scp_and设置mybackup帐户和sh密钥
 rsync -a -r -u [email protected]:/ tralev / images / home / tralev / backup
回声完成tralev图像
睡2s

 rsync -a -r -u [email protected]:/ backup / * / home / tralev / backup / db
回声完成tralev分贝
睡2s

 #将numbeo文件备份到tralev服务器
 rsync -a -r -u / numbeo / * [email protected]:/ numbeo / backup
回声完成numbeo文件,如图像
睡2s

 rsync -a -r -u / root / backup / * [email protected]:/numberbeo/db_backup
回声完成numbeo数据库备份
睡2s

我只能从cron运行时重现问题,当我在服务器上运行脚本我没有得到同样的问题。

任何想法可能会出错?

编辑:我原来,我正在检查错误的服务器。 更有甚者,Titan707服务器上的这两个驱动器都失败了,所以我不得不从备份中replace服务器! 人为错误!

您正在检查错误的服务器。 第二个/ proc / mdstat(有4个raid数组)输出不是来自titan707,它有三个raid数组。