OS windows server/Trouble shooting

MSCS 2대 & DAS 구성

infra 2021. 11. 28. 00:24
 

보통 고객사에서는 FC-SAN 을 많이 사용하고, 그 외에는 IP-SAN을 2번째로 사용한다. 간혹 오래된 시스템의 경우

다음과 그림과 같이 직접 다이렉트로 storage 랑 붙어서 사용하기도 한다. 이를 DAS 구성이라고 함.

스토리지에  controller (= node canister) 가 보통 2개 있는데, path의 이중화를 위해 다음과같이 보통 구성되어있다.

 

한쪽의  dual port가 장애나면, 또 다른 path가 대신해서 (Active-Standby) failover되는 구성이나

(Active-Active) 로 사용될 수도 있다.

 

해당 고객사에선 스토리지의 노후화때문인지, RAID 5인데도, 2개의 디스크가 동시에 failed되어, array가 깨진

이상한 상황이 발견되었다.

 

그래서 고객사에 스토리지 어레이 재구성을 요청했고, 어레이를 재구성하고 서버를 각각 리부팅을 했다고 하나, multipath 쪽 문제로 보인 상황이다. 기존에 사용했던 MPIO가 올라오지 않은 상황이 발생해서 스토리지에 경고등이 떨어졌다.

 

storage 장애만 접수한 터라, MPIO 문제를 파악하진 못했다. 스토리지 장애로만 증상을 파악하고 로그를 보니,
각각 2개의 preferred path 와 Current path가 다르다고 경고등이 들어온 상황.

 

그래서 스토리지 매니지먼트에서 preferred path랑 current path를 동일하게 맞추어줌.

그런데도 1~2초만에 다시 다르다고 경고등이 반복해서 들어오는 상황.

 

스토리지의 하드웨어적인 문제로 경고등이 뜬거지만, path가 계속 변경되지 않으니,

OS쪽 문제이지 않을까 장치관리자에서 path 확인하려 장치관리자의 path를 파악해봄.

 

multi path가 총 4개/ 스토리지 scsi disk 4개 밖에 보이지 않는다.

multipath는 4개가 보이더라도 scsi disk는 8개가 보여야 정상이다. 각각의 디스크 4개를 파악했더니 port(4) 로만 되어있던 것이다. 이를 통해 mpio가 되지 않았음을 파악

 

 

HP 볼륨은 해당 x86서버의 인터널 디스크이며, 스토리지의 디스크는 Dell MD3600f disk device이다.

 

reboot 전/후의 path

서버를 동시에 reboot하기엔 클러스터 되어있으므로, 클러스터 배치파일 수행으로 

standby 서버부터 먼저 reboot 후 해당 device가 각각 올라왔다.

 

 

기존 issue : 각각 2개의 preferred path 와 Current path가 다르다

standby 서버의 리부팅 후 : 1개의 preferred path 와 Current path가 다르다

 


이제 standby 서버가 정상화되고, 서비스 안정화되었는지 파악 후 , active 서버를 리부팅하게 되었다.

 

standby 서버의 리부팅 후 : 1개의 preferred path 와 Current path가 다르다

active 서버의 리부팅 후 : MPIO 정상화로 인해 storage의 경고등이 꺼짐

 

multipath는 4개가 보이더라도 scsi disk는 8개가 보여야 정상화되며, 

각각의 디스크를 파악했더니 port(2,4) 로 변경되며, MPIO 가 정상화되었음을 파악.