OS Unix [IBM aix]/HW 교체 관련

interdisk (rootvg ) hdisk 교체 방법1 (Power 7이하)

infra 2021. 10. 30. 16:39

보통 power 7이하 장비에선 format을 해줄필요가 없으나,

Power 8 이상 장비에선

장애난 pdisk 교체 후 hdisk로 포맷을 해주어야 됩니다.

 

주의점 !

 

1. lsvg rootvg 시 quorum 이 enabled인 경우 시스템이 다운됨!(거의 모든 고객사의 해당 디스크 quorum이 다행이도 disabled 되어있지만, 혹시나 enabled되어있을 시 꼭 disabled로 바꿔줘야 함)

 

2. lg_sysdumplv 말고도 간혹 미러가 풀려있는게 있는지 확인한다. 그런 경우는 드물지만, hd5(/boot영역), hd3 등등의 미러 풀려있는 경우(=unmirror)

미러 하는 방법은 해당 URL을 참조하라.

 

 

[1. rootvg hdisk 교체 장애처리 순서]

IBM Power 7 lg_dumplv 삭제
(optional 사항)
migratepv로 lg_dumplv를 옮길 수 있는 방법이 있으나,
dump삭제 후 작업이 끝난 후 덤프를 재생성 해주는게 recommend 사항
Step1 unmirrorvg 해당 vg의 mirror를 푸는 작업 LPs : PPs 의 1: 2 비율이 mirror지만,
mirror 풀고 교체를 해야됨.

Step2 reducevg 해당 vg를 제거해줌
Step3 diag로 장애난 디스크 교체 하드웨어 교체 작업
Step4 extendvg vg를 생성해줌
Step5 mirrorvg 해당 vg를 다시 mirror 해줌
  lg_dumplv 재생성
(optional 사항)
맨 첫단계에서 삭제를 했었다면 꼭 생성해줄 것!
Step6 # bosboot ad /dev/hdisk0
# bootlist m normal hdisk0 hdisk1(rootvg의 mirror 걸어놓은 디스크 2개를 넣기)
부트 이미지와
부트 리스트를 재작성

 

rootvg가 아닌 datavg 쪽 디스크의 디스크 교체는 mirror가 따로 안걸려있다면, 굳이 step1~6까지 해줄 필요 없음

 


[2. 시스템 정보 파악 ]

-HMC에서 해당 LPAR로 접속 후 해당 접속 정보 파악

 

HMC 접속 정보 및 제조사의 부품, 시리얼을 조회하려면 해당 URL 로 확인하거나 [더보기]란을 클릭하면 된다.

https://infraleesh.tistory.com/76

 

시스템 정보 파악 명령어 및 HMC

[ 시스템 정보 파악하기 ] -HMC에서 해당 LPAR로 접속 후 해당 접속 정보 파악 (1)HMC 접속  계정의 id /password를 default로 사용한다면, ID : hscroot PW : abc123       또는 abc1234 (1-1) 해당 LPAR에..

infraleesh.tistory.com

더보기

(1)HMC 접속

 계정의 id /password를 default로 사용한다면,

ID :  hscroot
PW : abc123
       또는 abc1234

 

(1-1) 해당 LPAR에서 Open restrict shell 클릭하면 명령어 창이 뜨게 된다.

vtmenu 입력하자 마자 좌측 서버 측에 속해있는 lpar 리스트들이 뜬다. UI에서도 확인 할 수 있는 내용이다.

해당 LPAR번호를 통해 접속하면 된다.

 

19번이 Lpar가 부팅(running)되어 있고 나머지 lpar들은 boot되지 않은 Not Activate 상태이다.

19번을 들어가서 확인한다.

 

(1-2)VIOS 환경

에선 oem_setup_env 로 명령어를 쳐서 환경을 설정한다음 aix 명령어가 수행할 수 있게 된다.

oem_setup_env 입력

 

default id/password

 

ID : padmin

PW : padmin

 

(1-3)

#set -o vi  //vi 를 on시켜 명령어 수행하기 편하게 하는 기능이다. 리눅스에서도 동일하다.

# export TMOUT=0 // 로그아웃 시간을 0으로 지정하여, exit 으로 나가기 전까지는 shell 에서 자동로그아웃되지 않게 한다.리눅스에서도 동일

 

 

 

 

[2] Machine Type / Serial Number 확인

 

보통 리눅스/AIX에선 다음과 같이 시리얼을 조회합니다.

명령어는 서로 다르네요. 하지만 man 명령어로 해당 메뉴얼을 조회하면 됩니다.

 

 


 

[3]에러로그 확인

errpt 로 하면 다음 table을 확인 할 수 있다.

errpt에 대해 더 자세한 관련내용은 해당 tistory 참고하면 된다.

https://jeongyd.tistory.com/25

IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
B6267342 MMDDHHmmYY P H hdisk0 DISK OPERATION ERROR
    T
P
I
H
S
   

 

errpt 로 보통 조회하면 되고,

T : Type 이며, T (temp)성으로 일시적인 것인지, P(Permanent)영구적으로 계속 발생하는 것인지, I(inform)인폼성으로 알리는 것인지를 나타내는 부분

 

C : Class 이며, H(hardware), S(Software)문제인지를 밝히는 부분

 

Resource는 자원이며, CPU,memory , sysplanar(보드), HBA, 등등의 부분

 

errpt -aj B6267342 로 해당 IDENTIFIER 부분의 내용을 자세히 볼 수 있는 옵션(aj)을 활용해서 로그를 본다.

location이나 해당 디스크의 위치 등등의 여러 내용이 파악가능하다.

 

IBM Power 7 이하는 보통 고객사 대부분 hdisk 0,1(rootvg)로 되어있다.

물론 hdisk 0,1외에도 다르게 수정할수도 있으니 제대로 파악할 것!

 

 

 


[4] error 가 hdisk 1에 발생했다고 가정

 

 

(4-1)디스크 format 형식 확인하기

#lsdev -Ccdisk

(4-2) format 형식 2번째 확인

 

pdisk0 멤버로 hdisk8 1개만 raid0으로 생성 되어 있음

(번외로 pdisk는 RAID 0, 5, 6 ,10을 기본적으로 지원한다) 디스크가 1개이므로, raid 0으로 되어있는상태임.

 

pdisk1은 candidate(후보) 상태

 

hdisk1,hdisk0은 일반적인 JBOD 상태

 

(4-3)rootvg 상태(syncd=정상, stale=failed 장애상태) 및 LVM mirror 확인

#lsvg -l rootvg

LPs = Logical partitions 

 

PPS= Physical partitions, LVM mirror에서 LPs 수의 두배인 것은 (LVM Mirror되어있음),

lg_dumplv는 덤프 채우는 LV라서 미러 되어있지 않는게 정상

 

(번외로 linux의 PE같은 개념임) PE가 모여 PV가 된다.

 

 

 Physical Volume, PVs가 2개 확인(물리적인 disk라고 생각하면 됨)

 

 

 LV 상태, 즉 할당 되어 있는 PPs 부분에 error 가 발생 하면 syncd 가   stale로 보임.

(syncd 상태는 두개의 PV가 LVM mirror되어 서로 sync되어 있는 상태)

 

 

(4-4) rootvg quorum 상태 확인

#lsvg rootvg

 

 

 

quorum이 1( disabled) 여야 정상이다. enabled상태로 되어있다면 무조건 disabled로 바꿔 줄 것

 

quorum 을 disabled로 변경 하는 방법1,2 (smitty chvg,  또는 chvg -Qn rootvg명령어)은 밑에 클릭하면 된다.

 

더보기

방법1

#smitty chvg

->Esc + 4 rootvg 선택

->A QUORUM of disks required to keep the volume group on-line? No로 변경

#lsvg rootvg quorum check

 

방법2

 

#chvg -Qn rootvg

옵션에 Qn :Quorum of disk required to keep the volume group on-line? 을 no 로 변경하는 의미와 같음.

 

(4-5)  sysdumplv 확인 및 변경 작업

(삭제 및 재생성// lg_dumplv를 삭제 재생성은 더보기 클릭)

 

 

sysdumplv 위치 확인

여기서 덤프를 삭제하기전 LPs PPs 갯수를 꼭 파악하고 작업 완료 후 덤프 재생성할 때 기억해야 한다.

 

4 : 4 로 unmirror 상태를 기억해놔야 함.

 

 

#lsvg -p rootvg

lg_dumplv LP 수 만큼 FREE PPs가 차이가 나고 PV_STATE 상태도 확인 가능함.

#lsvg -l rootvg

보통 sysdumplv mirror가 안되어 있고 한쪽 PVs에만 있음. 어느쪽 PVs에 할당되었는지 파악 하려면?

#lslv -m lg_dumplv

 

 

#lsvg -l rootvg

lg_dumplv LPs 확인 -> disk replacement 후 재생성을 위해 사전에 LPs 확인

#smitty dump

-> Change the Primary Dump Device

-> PRIMARY dump device /dev/sysdumpnull 입력 후 enter

 

삭제 전(좌측), 삭제 후 (우측) lg_dumplv의 primary 경로

#sysdumpdev -l 명령어를 통해

primary dump 위치가 /dev/lg_dumplv -> /dev/sysdumpnull로 변경되었는지 확인

 

Step1~5(unmirrorvg, extendvg, ... mirrorvg) 작업 완료 후 재생성해서 좌측처럼 변경되었는지 확인

 


Step1 mirror 해제

#smitty unmirrorvg

-> VOLUME GROUP name ESC + 4 rootvg 선택

-> PHYSICAL VOLUME names ESC +4로 교체 할 hdisk 선택 후 enter.

#lsvg -p rootvg 명령어FREE_PPs TOTAL PPs가 같은지 확인.

그리고 lsvg -l rootvg 로 각각의 LV명의 LPs 와 PPs 가 1대1 비율인지 확인 =>unmirror 됨을 의미함

 

Step2 rootvg에서 해당 장애난 hdisk1 제거하기

#smitty reducevg

-> Remove a Physical Volume from a Volume Group

-> VOLUME GROUP name에서 Esc + 4에서 rootvg 선택

-> PHYSICAL VOLUME nameEsc + 4에서 교체할 hdisk1 선택 후 enter

 

 #lsvg -p rootvg

rootvg 에서 hdisk# reduce되었는지 확인.

 

hdisk1은 없어지고, hdisk0만 있을 것이다.

 

 

 

Step3 diag 로 물리 디스크 교체 작업

 

 

#diag

-> enter

-> Task Selection

-> Hot Plug Task

-> SCSI and SCSI RAID Hot Plug Manager

->Replace/Remove a Device Attached to an SCSI Hot Swap Enclosure Device

->교체할 hdisk#로 이동 후 enter

교체 전(상), 교체 후 (하) 상태

enter description이 나오는데 내용은 교체 하고 enter 치라는 메시지가 나옴

디스크 물리적으로 교체 완료하고 엔터 누르기

-> 교체 한 slot 상태가 populated 상태 임

 

이 상태에서 Esc + 0으로 종료 .자동으로 cfgmgr 수행됨.

 

#lsdev -Cc disk로 해당 교체한 disk 붙었는지 확인.

만약 할당 되지 않았으면 cofig manager 수행

#cfgmgr -v

 

 

Step4. rootvg에 교체한 hdisk1 추가하기

#smitty extendvg

-> VOLUME GROUP nameEsc + 4rootvg 선택

-> PHYSICAL VOLUME names Esc + 4로 교체 한 disk 선택

#smitty extendvg

 

#lsvg -p rootvg

교체 한 disk 추가 되었는지 확인

 

Step5. rootvg에 mirror 수행하기

#smitty mirrorvg

 

-> VOLUME GROUP nameEsc + 4 rootvg 선택

-> Mirror sync modeEsc + 4background 선택

-> PHYSICAL VOLUME namesEsc + 4list 확인 후 Esc + 7hdisk0,hdisk1(rootvg인 디스크) 두개 모두 선택

 

#lsvg rootvg의 STALE PPs 갯수가 0으로 떨어질 때까지 봐야 됨.

 

 

STALE PPs 값이 점점 떨어지면서 0이 되면 sync 완료 (시간이 오래 걸리므로 1~2개 떨어지는거 확인)

#lsvg rootvg |grep -i stale 또는 실시간 변화를 확인하기 위해선

 

Step6. bosboot 명령어와 bootlist 명령어를 통해 부트 이미지와 부트 리스트를 재작성

# bosboot –ad /dev/hdisk0

# bootlist –m normal hdisk0 hdisk1

 


infraleesh@/> lsvg -l rootvg |grep hd5
rootvg:
LV NAME             TYPE       LPs     PPs     PVs  LV STATE      MOUNT POINT
hd5                     boot       1       2       2      closed/syncd      N/A

 

 

hd5가 나와야 된다. 해당 영역은 boot 영역이므로 bootlist 를 통해 해당 출력 결과가 나와야 한다.


infraleesh@/> bootlist  -m normal -o //로 확인 
hdisk0 blv=hd5 pathid=0
hdisk1 blv=hd5 pathid=0

 

 

#ipl_varyon i (부팅 디스크 확인)