X86 HW 장애 처리/Lenovo

OS(Windows server, Linux)에서의 disk교체 방법

infra 2022. 6. 30. 21:38

OS : windows Server 2012 R2

[MSM 을 통한 확인방법]

(0) user name /password는 관리자가 알고 있어야 함. OS 비번이랑 같음.

(1) failed된 디스크는 다음과 같이 빨간 동그라미

 

Controller id : 0   PD predictive failure  -:-:4  (슬롯 4를 뜻하며, 이건 디스크가  미리 failed될 것을 의미함)

media error count : PFA error 를 거치고 난 후 실제 disk의 bad block의 쌓인 횟수를 의미

pred Fail Count : bad sector error를 쌓기 전 발생하는 횟수 (PFA=Pre failed Alarm 에러를 의미, 즉,

미리 disk의 bad sector를 감지하는 횟수)

 

대개 PFA 에러만 떠도 전면부의 하드웨어 경고등은 들어올 수 있으나, 실제 disk 의 LED에선 감지 안되는 경우가 많다.

 

 

 

 

(2)안전하게 하기 위해 start locating drive / stop locating drive 해주고 해당 디스크 확인 후 make drive offline

해당 디스크를 offline 시키는 작업(this operation)전에 해당 디스크에 대한 백업을 해놓는 것을 권고한다.confirm 후 yes.

실제로 해당 디스크의 백업을 해놓는게 좋다.

백업 솔루션에서 백업 정책이나, 해당 파일 백업이 되었는지 확인하는 것도 중요!!

 

(3)offline되면 상태에 offline뜨면 failed 디스크 빼고 해당 slot 4번의 디스크가 빠졌는지 확인한다.

 

 

(3-1)Offline된거 확인 후 fault 디스크 빼기 그러면 다음과 같이 슬롯이 아예 사라짐.

 

 (3-2)새 디스크 넣으면 다음과 같이 rebuild 상태가 되면서 해당 자리에 새롭게 디스크 인식됨.

 

디스크 하드웨어 교체 진행 후

(5)dashboard > more details 보면 리빌딩 진행상태가 나타나며, 몇시간 걸리는지 확인됨.

 


Linux 내 디스크 교체 및 리빌딩 확인 방법

 

리눅스에서 전제조건으로 해당 package가 있는지 파악한다. 

storcli64    보통 OS에선 64 bit가 많으므로, 해당 서버 내 kernel이 몇 bit인지 파악 후 설치해 주는게 좋다.

rpm -qa|grep -i storcli

해당 패키지 있는지 확인 후 해당 경로에 storcli 패키지가 있는 것을 전제로 명령어 수행한다.
[RAID 1의 OS 영역 VG또는 dataVG]

1. 문제있는 disk 의 state 확인
#./storcli64 /c0/e20/s4 show

2.교체할 disk slot을 육안으로 확인
#./storcli64 /c0/e20/s4 start locate(disk LED blink 하게 만듬) //주황색 LED 로 깜박이는지 확인
#./storcli64 /c0/e20/s4 stop locate(disk LED blink 상태에서 멈춤으로 만듬) //주황색 LED 로 깜박이는 것이 멈추는지 확인

3.해당 disk의 state 를 online -> offline으로 변경(물리적으로 failed된 디스크를 뺀 후 확인)
#./storcli64 /c0/e20/s4 set offline

4. 교체할 디스크의 주황색 LED가 표시되는지 확인 => 표시되는 순간 offline 상태

5. 디스크 상태 확인
#./storcli64 /c0/e20/s4 show



6 (optional) disk 3개이상은 RAID5 가 대체로 많으므로 hotspare disk 인지도 파악 후 해제하는 방법도 있다.
#./storcli64 /c0/e20/s11 delete hotsparedrive
7.교체 된 디스크의 리빌딩 상태 확인
#./storcli64 /c0/e20/s4 show rebuild
#./storcli64 /c0/e20/s4 show

8(optional)  해제하는 방법도 있다.
#./storcli64 /c0/e20/s11 add hotsparedrive

8.VD 상태 확인
#./storcli64 /cx/vall show

IMM에선 local storage 내 RAID 정보가 보여야 하나, 펌웨어가 낮아서 안보이는 경우도 있다.

그럴 경우, lenovo datacenter support 내 현재 펌웨어의 정보를 파악 후 몇버젼에 대한 history 등등이 나와있다.

fix 시킬 수 있는 가이드도 있으니 꼭 참조 할것 .

 

 

'X86 HW 장애 처리 > Lenovo' 카테고리의 다른 글

Downgrade Raid ctrl  (0) 2021.11.27