rsync之后的降级数组事件，但后来的mdadm和smartctl不显示任何问题

我在我的cron rsync激活，并开始在每个rsync后收到电子邮件

这是从mdadm自动生成的邮件消息
在titan707上运行

在md设备/ dev / md / 2上检测到降级数组事件。

忠实的你等等

 PS / proc / mdstat文件当前包含以下内容：

个性：[线性] [多重] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
 md1：激活raid1 sdb3 [1] sda3 [0]
       7995840超级块1.2 [2/2] [UU]

 md0：激活raid1 sdb2 [1]（F）sda2 [0]
       499712块超级1.2 [2/1] [U_]

 md2：active raid1 sdb4 [1]（F）sda4 [0]
       968130304块超级1.2 [2/1] [U_]

未使用的设备：

但后来smartctl和mdadmin不显示任何问题，请参阅下面的mdadm，smartctl的日志。

 $ cat / proc / mdstat 
个性：[raid0] [raid1] [raid6] [raid5] [raid4] [raid10] [线性] [multipath] 
 md0：活动raid1 sda1 [0] sdb1 [1]
       33553336块超级1.2 [2/2] [UU]

 md1：活动raid1 sdb2 [1] sda2 [0]
       524276块超级1.2 [2/2] [UU]

 md3：active raid1 sdb4 [1] sda4 [0]
       1822442815超级块1.2 [2/2] [UU]

 md2：激活raid1 sdb3 [1] sda3 [0]
       1073740664超级块1.2 [2/2] [UU]

未使用的设备： 
 $ smartctl -a / dev / sda
 smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-24-generic]（本地构build）
版权（C）2002-11由布鲁斯艾伦，http://smartmontools.sourceforge.net

 ===信息部分的开始===
型号系列：希捷Barracuda XT
设备型号：ST33000651AS
序列号：Z291E1TG
 LU WWN设备ID：5 000c50 03f2f8fbc
固件版本：CC45
用户容量：3,000,592,982,016字节[3.00 TB]
扇区大小：512字节逻辑/物理
设备是：在smartctl数据库[详细使用：-P显示]
 ATA版本是：8
 ATA标准是：ATA-8-ACS修订版4
当地时间：Wed Mar 19 09:20:26 2014 CET
 SMART支持是：可用 - 设备具有SMARTfunction。
 SMART支持是：已启用

 ===开始读取智能数据部分===
 SMART全身健康自我评估testing结果：PASSED

一般SMART值：
离线数据收集状态：（0x82）离线数据收集活动
                    完成没有错误。
                    自动离线数据收集：已启用。
自检执行状态：（0）完成上一个自检程序
                    没有错误或没有自检过 
                    已经运行。
完成离线的总时间 
数据收集：（600）秒。
离线数据收集
function：（0x7b）SMART立即执行离线。
                    自动离线数据收集开/关支持。
                    在新的时候挂起脱机收集
                    命令。
                    支持脱机表面扫描。
                    支持自检。
                    传输自检支持。
                    支持select性自检。
 SMARTfunction：（0x0003）在input之前保存SMART数据
                    省电模式。
                    支持SMART自动保存定时器。
错误loggingfunction：（0x01）支持错误logging。
                    通用日志logging支持。
短暂的自检程序 
推荐的投票时间：（1）分钟。
扩展的自检程序
build议的投票时间：（255）分钟。
运送自检程序
推荐的投票时间：（2）分钟。
 SCTfunction：（0x103f）支持SCT状态。
                    支持SCT错误恢复控制。
                    支持SCTfunction控制。
                     SCT数据表支持。

 SMART属性数据结构修订号：10
具有阈值的供应商特定SMART属性：
 ID＃ATTRIBUTE_NAME标记值最差值types已更新WHEN_FAILED RAW_VALUE
   1 Raw_Read_Error_Rate 0x000f 117 099 006预故障总是 -  152015022
   3 Spin_Up_Time 0x0003 094 094 000预失败始终 -  0
   4 Start_Stop_Count 0x0032 100 100 020 Old_age始终 -  6
   5 Reallocated_Sector_Ct 0x0033 100 100 036预失败始终 -  0
   7 Seek_Error_Rate 0x000f 075 060 030预失败总是 -  40795438
   9 Power_On_Hours 0x0032 077 077 000 Old_age始终 -  20281
  10 Spin_Retry_Count 0x0013 100 100 097预失败始终 -  0
  12 Power_Cycle_Count 0x0032 100 100 020 Old_age始终 -  6
 183 Runtime_Bad_Block 0x0032 100 100 000 Old_age始终为0
 184 End-to-End_Error 0x0032 100 100 099 Old_age始终为0
 187 Reported_Uncorrect 0x0032 100 100 000 Old_age始终为0
 188 Command_Timeout 0x0032 100 100 000 Old_age始终 -  0
 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always  -  0
 190 Airflow_Temperature_Cel 0x0022 053 046 045 Old_age始终 -  47（最小/最大43/54）
 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age始终为0
 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always  -  4
 Load_Cycle_Count 0x0032 100 100 000 Old_age Always  -  6
 194 Temperature_Celsius 0x0022 047 054 000 Old_age Always  -  47（0 23 0 0）
 195 Hardware_ECC_Recovered 0x001a 021 003 000 Old_age Always  -  152015022
 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always  -  0
 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline  -  0
 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age始终为0
 240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline  -  253145372446521
 241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline  -  2852285811
 242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline  -  811308464

 SMART错误日志版本：1
没有错误logging

 SMART自检日志结构修订版本号1
数量Test_Description状态剩余使用期限（小时）LBA_of_first_error
 ＃1扩展脱机完成无误00％20193  - 
 ＃2短线下完成无误00％20185  - 
 ＃3扩展离线完成无误00％5723  - 

 SMARTselect性自检日志数据结构修订版本号1
  SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
     1 0 0 Not_testing
     2 0 0 Not_testing
     3 0 0 Not_testing
     4 0 0 Not_testing
     5 0 0 Not_testing
select性自检标志（0x0）：
  扫描选定的跨度后，不要读取扫描剩余的磁盘。
如果select性自检在上电时挂起，则延迟0分钟后恢复。

 $ smartctl -a / dev / sdb
 smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-24-generic]（本地构build）
版权（C）2002-11由布鲁斯艾伦，http://smartmontools.sourceforge.net

 ===信息部分的开始===
型号系列：希捷Barracuda XT
器件型号：ST33000651AS
序列号：Z2917JDM
 LU WWN设备ID：5 000c50 03f1b6146
固件版本：CC45
用户容量：3,000,592,982,016字节[3.00 TB]
扇区大小：512字节逻辑/物理
设备是：在smartctl数据库[详细使用：-P显示]
 ATA版本是：8
 ATA标准是：ATA-8-ACS修订版4
当地时间：Wed Mar 19 09:20:53 2014 CET
 SMART支持是：可用 - 设备具有SMARTfunction。
 SMART支持是：已启用

 ===开始读取智能数据部分===
 SMART全身健康自我评估testing结果：PASSED

一般SMART值：
离线数据收集状态：（0x82）离线数据收集活动
                    完成没有错误。
                    自动离线数据收集：已启用。
自检执行状态：（0）完成上一个自检程序
                    没有错误或没有自检过 
                    已经运行。
完成离线的总时间 
数据收集：（609）秒。
离线数据收集
function：（0x7b）SMART立即执行离线。
                    自动离线数据收集开/关支持。
                    在新的时候挂起脱机收集
                    命令。
                    支持脱机表面扫描。
                    支持自检。
                    传输自检支持。
                    支持select性自检。
 SMARTfunction：（0x0003）在input之前保存SMART数据
                    省电模式。
                    支持SMART自动保存定时器。
错误loggingfunction：（0x01）支持错误logging。
                    通用日志logging支持。
短暂的自检程序 
推荐的投票时间：（1）分钟。
扩展的自检程序
build议的投票时间：（255）分钟。
运送自检程序
推荐的投票时间：（2）分钟。
 SCTfunction：（0x103f）支持SCT状态。
                    支持SCT错误恢复控制。
                    支持SCTfunction控制。
                     SCT数据表支持。

 SMART属性数据结构修订号：10
具有阈值的供应商特定SMART属性：
 ID＃ATTRIBUTE_NAME标记值最差值types已更新WHEN_FAILED RAW_VALUE
   1 Raw_Read_Error_Rate 0x000f 117 099 006预失败始终 -  144398334
   3 Spin_Up_Time 0x0003 094 094 000预失败始终 -  0
   4 Start_Stop_Count 0x0032 100 100 020 Old_age Always  -  6
   5 Reallocated_Sector_Ct 0x0033 100 100 036预失败始终 -  0
   7 Seek_Error_Rate 0x000f 075 060 030预失败总是 -  41707682
   9 Power_On_Hours 0x0032 077 077 000 Old_age始终 -  20281
  10 Spin_Retry_Count 0x0013 100 100 097预失败始终 -  0
  12 Power_Cycle_Count 0x0032 100 100 020 Old_age始终 -  6
 183 Runtime_Bad_Block 0x0032 100 100 000 Old_age始终为0
 184 End-to-End_Error 0x0032 100 100 099 Old_age始终为0
 187 Reported_Uncorrect 0x0032 100 100 000 Old_age始终为0
 188 Command_Timeout 0x0032 100 100 000 Old_age始终 -  0
 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always  -  0
 190 Airflow_Temperature_Cel 0x0022 057 049 045 Old_age始终 -  43（最小/最大39/51）
 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age始终为0
 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always  -  4
 Load_Cycle_Count 0x0032 100 100 000 Old_age Always  -  6
 194 Temperature_Celsius 0x0022 043 051 000 Old_age Always  -  43（0 23 0 0）
 195 Hardware_ECC_Recovered 0x001a 021 003 000 Old_age始终 -  144398334
 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always  -  0
 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline  -  0
 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age始终为0
 240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline  -  38959648362297
 241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline  -  162809159
 242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline  -  1526676264

 SMART错误日志版本：1
没有错误logging

 SMART自检日志结构修订版本号1
数量Test_Description状态剩余使用期限（小时）LBA_of_first_error
 ＃1扩展脱机无误完成00％20218  - 
 ＃2短线下完成无误00％20185  - 
 ＃3扩展离线完成无误00％5723  - 

 SMARTselect性自检日志数据结构修订版本号1
  SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
     1 0 0 Not_testing
     2 0 0 Not_testing
     3 0 0 Not_testing
     4 0 0 Not_testing
     5 0 0 Not_testing
select性自检标志（0x0）：
  扫描选定的跨度后，不要读取扫描剩余的磁盘。
如果select性自检在上电时挂起，则延迟0分钟后恢复。

 $ 
 $ mdadm -D / dev / md0 
的/ dev / md0的：
        版本：1.2
  创作时间：星期五七月27 13:40:57 2012
     团队副本：raid1
     数组大小：33553336（32.00 GiB 34.36 GB）
  使用的开发尺寸：33553336（32.00 GiB 34.36 GB）
    RAID设备：2
  设备总数：2
    持久性：超级块是持久的

    更新时间：2014年3月17日星期一12:24:57
          状态：干净 
 有源器件：2
工作设备：2
 失败的设备：0
  备用设备：0

           名称：救援：0
            UUID：28ad38a2：f3df9bbc：2f1f4d98：2006ce16
         事件：22

    数量主要次要RaidDevice状态
        0 8 1 0主动同步/ dev / sda1
        1 8 17 1主动同步/ dev / sdb1
 $ mdadm -D / dev / md1
的/ dev / MD1：
        版本：1.2
  创作时间：星期五七月27 13:40:57 2012
     团队副本：raid1
     数组大小：524276（512.07 MiB 536.86 MB）
  使用的开发大小：524276（512.07 MiB 536.86 MB）
    RAID设备：2
  设备总数：2
    持久性：超级块是持久的

    更新时间：Wed Mar 19 06:25:43 2014
          状态：干净 
 有源器件：2
工作设备：2
 失败的设备：0
  备用设备：0

           名称：救援：1
            UUID：659022e1：e93cfcb9：c7b533ae：5a81c83b
         事件：25

    数量主要次要RaidDevice状态
        0 8 2 0主动同步/ dev / sda2
        1 8 18 1主动同步/ dev / sdb2
 $ mdadm -D / dev / md2
的/ dev / MD2：
        版本：1.2
  创build时间：2012年7月27日星期五13:40:58
     团队副本：raid1
     arrays大小：1073740664（1024.00 GiB 1099.51 GB）
  使用的开发大小：1073740664（1024.00 GiB 1099.51 GB）
    RAID设备：2
  设备总数：2
    持久性：超级块是持久的

    更新时间：3月19日星期三09:21:40 2014
          状态：干净 
 有源器件：2
工作设备：2
 失败的设备：0
  备用设备：0

           名称：救援：2
            UUID：b79d3e48：62b55d0b：8501355c：2f905ef2
         事件：34

    数量主要次要RaidDevice状态
        0 8 3 0主动同步/ dev / sda3
        1 8 19 1主动同步/ dev / sdb3
 $ mdadm -D / dev / md3
的/ dev / MD3：
        版本：1.2
  创build时间：2012年7月27日星期五13:40:58
     团队副本：raid1
     arrays大小：1822442815（1738.02 GiB 1866.18 GB）
  使用的开发尺寸：1822442815（1738.02 GiB 1866.18 GB）
    RAID设备：2
  设备总数：2
    持久性：超级块是持久的

    更新时间：Wed Mar 19 09:21:09 2014
          状态：干净 
 有源器件：2
工作设备：2
 失败的设备：0
  备用设备：0

           名称：救援：3
            UUID：fdb07043：8bd52646：9f267e1b：d0a43f0e
         事件：22

    数量主要次要RaidDevice状态
        0 8 4 0主动同步/ dev / sda4
        1 8 20 1主动同步/ dev / sdb4
 $

我在dmesg中也找不到任何东西

 $ dmesg |  grep“md”[1.957908] md：注册为0级的raid0个性[1.959091] md：注册为级别1的raid1个性[2.069112] md：bind [2.070684] md：bind [2.072032] md：bind [2.116159] md：bind [2.117310] md / raid1：md3：2个镜像中有2个镜像处于活动状态[2.117380] md3：检测到的容量从0更改为1866181442560 [2.124174] md：bind [2.138621] md3：未知分区表[2.140113] md：bind [2.141326 ] md / raid1：md2：2个镜像中有2个镜像处于活动状态[2.141398] md2：检测到的容量从0变为1099510439936 [2.162685] md2：未知分区表[2.230596] md：bind [2.231715] md / raid1：md1： 2个镜像中的2个[2.231786] md1：检测到的容量从0到536858624变化[2.233100] md1：未知分区表[2.436160] md：bind [2.437387] md / raid1：md0：2个镜像中有2个为活动[2.437456 ] md0：检测到的容量从0变化到34358616064 [2.444765] md0：未知的分区表[2.456675] md：raid6为6级注册的个性[  2.456738] md：raid5个性，注册等级5 [2.456797] md：raid4个性注册等级4 [2.458570] md：raid10个性注册等级10 [2.462736] md：线性个性注册等级-1 [2.463538] md：multipath个性注册为等级-4 [8.213448] EXT4-fs（md2）：具有有序数据模式的已装入文件系统。 选项：（null）[11.334852]在/ dev / md0上添加33553332k交换。 优先级：-1范围：1跨：33553332k [11.337379] EXT4-fs（md2）：warning：达到检查时间，build议运行e2fsck [11.359536] EXT4-fs（md2）：重装。 选项：（null）[11.700105] EXT3-fs（md1）：警告：checktime已到达，build议运行e2fsck [11.778306] EXT3-fs（md1）：使用内部日志[11.778310] EXT3-fs（md1）有序的数据模式[12.155704] EXT4-fs（md3）：警告：检查时间已到，build议运行e2fsck [12.218303] EXT4-fs（md3）：装入有序数据模式的文件系统。 选项：（null）$ dmesg |  grep“sd”[1.870244] sd 0：0：0：0：[sda] 5860533168 512字节逻辑块：（3.00 TB / 2.72 TiB）[1.870251] sd 0：0：0：0：附加scsi通用sg0types0 [1.870487] sd 0：0：0：0：[sda]写保护closures[1.870637] sd 1：0：0：0：[sdb] 5860533168 512字节逻辑块：（3.00 TB / 2.72 TiB）[ 1.870638] sd 1：0：0：0：附加scsi通用sg1types0 [1.870667] sd 1：0：0：0：[sdb]写保护closures[1.870668] sd 1：0：0：0：[sdb ]模式Sense：00 3a 00 00 [1.870697] sd 1：0：0：0：[sdb]写入caching：启用，读取caching：启用，不支持DPO或FUA [1.870989] sd 0：0： 0：[sda]模式Sense：00 3a 00 00 [1.870999] sd 0：0：0：0：[sda]写入caching：启用，读取caching：启用，不支持DPO或FUA [1.916610] sda：sda1 sda2 sda3 sda4 sda5 [1.917195] sd 0：0：0：0：[sda]连接SCSI磁盘[1.928325] sdb：sdb1 sdb2 sdb3 sdb4 sdb5 [1.929042] sd 1：0：0：0：[sdb] [2.069112] md：bind [2.070684] md：bind [2.072032] md：bind [2.116159] md：bind [2.124174] md：bind [2.14011  3] md：bind [2.230596] md：bind [2.436160] md：bind

Cron脚本我作为mybackup用户运行，以在我pipe理的两台服务器之间同步内容

 ＃！/斌/庆典
 ＃按照说明从https://blogs.oracle.com/jkini/entry/how_to_scp_scp_and设置mybackup帐户和sh密钥
 rsync -a -r -u [email protected]：/ tralev / images / home / tralev / backup
回声完成tralev图像
睡2s

 rsync -a -r -u [email protected]：/ backup / * / home / tralev / backup / db
回声完成tralev分贝
睡2s

 ＃将numbeo文件备份到tralev服务器
 rsync -a -r -u / numbeo / * [email protected]：/ numbeo / backup
回声完成numbeo文件，如图像
睡2s

 rsync -a -r -u / root / backup / * [email protected]：/numberbeo/db_backup
回声完成numbeo数据库备份
睡2s

我只能从cron运行时重现问题，当我在服务器上运行脚本我没有得到同样的问题。

任何想法可能会出错？

编辑：我原来，我正在检查错误的服务器。 更有甚者，Titan707服务器上的这两个驱动器都失败了，所以我不得不从备份中replace服务器！ 人为错误！

您正在检查错误的服务器。第二个/ proc / mdstat（有4个raid数组）输出不是来自titan707，它有三个raid数组。