|
На одном из серверов под Linux вывалился диск из массива RAID1,
собранный на базе mdraid. Более того диск исчез из системы, т.е.
полностью перестал быть доступным: Dec 28 04:02:22 host kernel: scsi 0:0:1:0: rejecting I/O to dead device Dec 28 04:02:22 host kernel: printk: 44 messages suppressed. Dec 28 04:02:22 host kernel: raid1: sdb1: rescheduling sector 32774 Dec 28 04:02:22 host kernel: scsi 0:0:1:0: rejecting I/O to dead device Dec 28 04:02:22 host kernel: scsi 0:0:1:0: rejecting I/O to dead device Dec 28 04:02:22 host kernel: raid1: Disk failure on sdb1, disabling device. Dec 28 04:02:22 host kernel: Operation continuing on 1 devices Dec 28 04:02:22 host kernel: raid1: sda1: redirecting sector 32774 to another mirror Dec 28 04:02:22 host kernel: RAID1 conf printout: Dec 28 04:02:22 host kernel: --- wd:1 rd:2 Dec 28 04:02:22 host kernel: disk 0, wo:0, o:1, dev:sda1 Dec 28 04:02:22 host kernel: disk 1, wo:1, o:0, dev:sdb1 Dec 28 04:02:22 host kernel: RAID1 conf printout: Dec 28 04:02:22 host kernel: --- wd:1 rd:2 Dec 28 04:02:22 host kernel: disk 0, wo:0, o:1, dev:sda1 Dec 28 04:03:18 host smartd[4602]: Device: /dev/sdb, No such device, open() failed
По звонку на площадку инженер ДЦ сообщил об отсутствии индикации на вывалившимся диске. Вынул корзину и вставил обратно, после чего диск появился обратно: Dec 28 12:21:35 host kernel: mptsas: ioc0: attaching sata device: fw_channel 0, fw_id 2, phy 1, sas_addr 0x1221000001000000 Dec 28 12:21:35 host kernel: Vendor: ATA Model: ST31000528AS Rev: CC38 Dec 28 12:21:35 host kernel: Type: Direct-Access ANSI SCSI revision: 05 Dec 28 12:21:35 host kernel: SCSI device sdd: 1953525168 512-byte hdwr sectors (1000205 MB) Dec 28 12:21:35 host kernel: sdd: Write Protect is off Dec 28 12:21:35 host kernel: SCSI device sdd: drive cache: write back Dec 28 12:21:35 host kernel: SCSI device sdd: 1953525168 512-byte hdwr sectors (1000205 MB) Dec 28 12:21:35 host kernel: sdd: Write Protect is off Dec 28 12:21:35 host kernel: SCSI device sdd: drive cache: write back Dec 28 12:21:35 host kernel: sdd: sdd1 sdd2 sdd3 sdd4 < sdd5 sdd6 sdd7 sdd8 sdd9 > Dec 28 12:21:35 host kernel: sd 0:0:4:0: Attached scsi disk sdd Dec 28 12:21:35 host kernel: sd 0:0:4:0: Attached scsi generic sg1 type 0
Радует, что диск рабочий и вернулся в строй. Вот только был sdb, а стал sdd. Восстанавливаем массив: # mdadmin /dev/md0 --add /dev/sdd1 # mdadmin /dev/md1 --add /dev/sdd3
И так далее. По всем разделам. В итоге получаем: # cat /proc/mdstat Personalities : [raid1] md0 : active raid1 sdd1[1] sda1[0] 513984 blocks [2/2] [UU]
md1 : active raid1 sdd3[1] sdb3[2](F) sda3[0] 4192896 blocks [2/2] [UU]
md3 : active raid1 sdd6[1] sdb6[2](F) sda6[0] 20972736 blocks [2/2] [UU]
md4 : active raid1 sdd7[2] sdb7[3](F) sda7[0] 12763520 blocks [2/1] [U_] resync=DELAYED
md6 : active raid1 sdd8[2] sdb8[3](F) sda8[0] 897141760 blocks [2/1] [U_] [================>....] recovery = 81.6% (732643200/897141760) finish=81.1min speed=33778K/sec
md2 : active raid1 sdd5[1] sdb5[2](F) sda5[0] 11068672 blocks [2/2] [UU]
unused devices: <none>
Как видно, в строках выше указано теперь три диска, при том, что sdb со своими разделами отмечен как F (faulty spare). Но нам нужно удалить все faulty spare из массивов /dev/mdN: # mdadm --manage /dev/md1 --remove detached mdadm: hot removed 8:19 # mdadm --manage /dev/md3 --remove detached mdadm: hot removed 8:22 # mdadm --manage /dev/md4 --remove detached mdadm: hot removed 8:23 # mdadm --manage /dev/md6 --remove detached mdadm: hot removed 8:24 # mdadm --manage /dev/md2 --remove detached mdadm: hot removed 8:21
Готово: # cat /proc/mdstat Personalities : [raid1] md0 : active raid1 sdd1[1] sda1[0] 513984 blocks [2/2] [UU]
md1 : active raid1 sdd3[1] sda3[0] 4192896 blocks [2/2] [UU]
md3 : active raid1 sdd6[1] sda6[0] 20972736 blocks [2/2] [UU]
md4 : active raid1 sdd7[2] sda7[0] 12763520 blocks [2/1] [U_] resync=DELAYED
md6 : active raid1 sdd8[2] sda8[0] 897141760 blocks [2/1] [U_] [=================>...] recovery = 87.8% (787860928/897141760) finish=46.8min speed=38880K/sec
md2 : active raid1 sdd5[1] sda5[0] 11068672 blocks [2/2] [UU]
unused devices: <none>
|