OS : windows Server 2012 R2
[MSM 을 통한 확인방법]
(0) user name /password는 관리자가 알고 있어야 함. OS 비번이랑 같음.
(1) failed된 디스크는 다음과 같이 빨간 동그라미
Controller id : 0 PD predictive failure -:-:4 (슬롯 4를 뜻하며, 이건 디스크가 미리 failed될 것을 의미함)
media error count : PFA error 를 거치고 난 후 실제 disk의 bad block의 쌓인 횟수를 의미
pred Fail Count : bad sector error를 쌓기 전 발생하는 횟수 (PFA=Pre failed Alarm 에러를 의미, 즉,
미리 disk의 bad sector를 감지하는 횟수)
대개 PFA 에러만 떠도 전면부의 하드웨어 경고등은 들어올 수 있으나, 실제 disk 의 LED에선 감지 안되는 경우가 많다.
(2)안전하게 하기 위해 start locating drive / stop locating drive 해주고 해당 디스크 확인 후 make drive offline
실제로 해당 디스크의 백업을 해놓는게 좋다.
백업 솔루션에서 백업 정책이나, 해당 파일 백업이 되었는지 확인하는 것도 중요!!
(3)offline되면 상태에 offline뜨면 failed 디스크 빼고 해당 slot 4번의 디스크가 빠졌는지 확인한다.
(3-1)Offline된거 확인 후 fault 디스크 빼기 그러면 다음과 같이 슬롯이 아예 사라짐.
(3-2)새 디스크 넣으면 다음과 같이 rebuild 상태가 되면서 해당 자리에 새롭게 디스크 인식됨.
디스크 하드웨어 교체 진행 후
(5)dashboard > more details 보면 리빌딩 진행상태가 나타나며, 몇시간 걸리는지 확인됨.
Linux 내 디스크 교체 및 리빌딩 확인 방법
리눅스에서 전제조건으로 해당 package가 있는지 파악한다.
storcli64 보통 OS에선 64 bit가 많으므로, 해당 서버 내 kernel이 몇 bit인지 파악 후 설치해 주는게 좋다.
rpm -qa|grep -i storcli
해당 패키지 있는지 확인 후 해당 경로에 storcli 패키지가 있는 것을 전제로 명령어 수행한다.
[RAID 1의 OS 영역 VG또는 dataVG]
1. 문제있는 disk 의 state 확인
#./storcli64 /c0/e20/s4 show
2.교체할 disk slot을 육안으로 확인
#./storcli64 /c0/e20/s4 start locate(disk LED blink 하게 만듬) //주황색 LED 로 깜박이는지 확인
#./storcli64 /c0/e20/s4 stop locate(disk LED blink 상태에서 멈춤으로 만듬) //주황색 LED 로 깜박이는 것이 멈추는지 확인
3.해당 disk의 state 를 online -> offline으로 변경(물리적으로 failed된 디스크를 뺀 후 확인)
#./storcli64 /c0/e20/s4 set offline
4. 교체할 디스크의 주황색 LED가 표시되는지 확인 => 표시되는 순간 offline 상태
5. 디스크 상태 확인
#./storcli64 /c0/e20/s4 show
6 (optional) disk 3개이상은 RAID5 가 대체로 많으므로 hotspare disk 인지도 파악 후 해제하는 방법도 있다.
#./storcli64 /c0/e20/s11 delete hotsparedrive
7.교체 된 디스크의 리빌딩 상태 확인
#./storcli64 /c0/e20/s4 show rebuild
#./storcli64 /c0/e20/s4 show
8(optional) 해제하는 방법도 있다.
#./storcli64 /c0/e20/s11 add hotsparedrive
8.VD 상태 확인
#./storcli64 /cx/vall show
IMM에선 local storage 내 RAID 정보가 보여야 하나, 펌웨어가 낮아서 안보이는 경우도 있다.
그럴 경우, lenovo datacenter support 내 현재 펌웨어의 정보를 파악 후 몇버젼에 대한 history 등등이 나와있다.
fix 시킬 수 있는 가이드도 있으니 꼭 참조 할것 .
'X86 HW 장애 처리 > Lenovo' 카테고리의 다른 글
Downgrade Raid ctrl (0) | 2021.11.27 |
---|