보통 power 7이하 장비에선 format을 해줄필요가 없으나,
Power 8 이상 장비에선
장애난 pdisk 교체 후 hdisk로 포맷을 해주어야 됩니다.
주의점 !
1. lsvg rootvg 시 quorum 이 enabled인 경우 시스템이 다운됨!(거의 모든 고객사의 해당 디스크 quorum이 다행이도 disabled 되어있지만, 혹시나 enabled되어있을 시 꼭 disabled로 바꿔줘야 함)
2. lg_sysdumplv 말고도 간혹 미러가 풀려있는게 있는지 확인한다. 그런 경우는 드물지만, hd5(/boot영역), hd3 등등의 미러 풀려있는 경우(=unmirror)
미러 하는 방법은 해당 URL을 참조하라.
[1. rootvg hdisk 교체 장애처리 순서]
IBM Power 7 | lg_dumplv 삭제 (optional 사항) |
migratepv로 lg_dumplv를 옮길 수 있는 방법이 있으나, dump삭제 후 작업이 끝난 후 덤프를 재생성 해주는게 recommend 사항 |
Step1 | unmirrorvg | 해당 vg의 mirror를 푸는 작업 LPs : PPs 의 1: 2 비율이 mirror지만, mirror 풀고 교체를 해야됨. |
Step2 | reducevg | 해당 vg를 제거해줌 |
Step3 | diag로 장애난 디스크 교체 | 하드웨어 교체 작업 |
Step4 | extendvg | vg를 생성해줌 |
Step5 | mirrorvg | 해당 vg를 다시 mirror 해줌 |
lg_dumplv 재생성 (optional 사항) |
맨 첫단계에서 삭제를 했었다면 꼭 생성해줄 것! | |
Step6 | # bosboot –ad /dev/hdisk0 # bootlist –m normal hdisk0 hdisk1(rootvg의 mirror 걸어놓은 디스크 2개를 넣기) |
부트 이미지와 부트 리스트를 재작성 |
rootvg가 아닌 datavg 쪽 디스크의 디스크 교체는 mirror가 따로 안걸려있다면, 굳이 step1~6까지 해줄 필요 없음
[2. 시스템 정보 파악 ]
-HMC에서 해당 LPAR로 접속 후 해당 접속 정보 파악
HMC 접속 정보 및 제조사의 부품, 시리얼을 조회하려면 해당 URL 로 확인하거나 [더보기]란을 클릭하면 된다.
https://infraleesh.tistory.com/76
(1)HMC 접속
계정의 id /password를 default로 사용한다면,
ID : hscroot PW : abc123 또는 abc1234 |
(1-1) 해당 LPAR에서 Open restrict shell 클릭하면 명령어 창이 뜨게 된다.
vtmenu 입력하자 마자 좌측 서버 측에 속해있는 lpar 리스트들이 뜬다. UI에서도 확인 할 수 있는 내용이다.
해당 LPAR번호를 통해 접속하면 된다.
19번이 Lpar가 부팅(running)되어 있고 나머지 lpar들은 boot되지 않은 Not Activate 상태이다.
19번을 들어가서 확인한다.
(1-2)VIOS 환경
에선 oem_setup_env 로 명령어를 쳐서 환경을 설정한다음 aix 명령어가 수행할 수 있게 된다.
oem_setup_env 입력
default id/password
ID : padmin
PW : padmin
(1-3)
#set -o vi //vi 를 on시켜 명령어 수행하기 편하게 하는 기능이다. 리눅스에서도 동일하다.
# export TMOUT=0 // 로그아웃 시간을 0으로 지정하여, exit 으로 나가기 전까지는 shell 에서 자동로그아웃되지 않게 한다.리눅스에서도 동일
[2] Machine Type / Serial Number 확인
보통 리눅스/AIX에선 다음과 같이 시리얼을 조회합니다.
명령어는 서로 다르네요. 하지만 man 명령어로 해당 메뉴얼을 조회하면 됩니다.
[3]에러로그 확인
errpt 로 하면 다음 table을 확인 할 수 있다.
errpt에 대해 더 자세한 관련내용은 해당 tistory 참고하면 된다.
https://jeongyd.tistory.com/25
IDENTIFIER | TIMESTAMP | T | C | RESOURCE_NAME | DESCRIPTION |
B6267342 | MMDDHHmmYY | P | H | hdisk0 | DISK OPERATION ERROR |
T P I |
H S |
errpt 로 보통 조회하면 되고,
T : Type 이며, T (temp)성으로 일시적인 것인지, P(Permanent)영구적으로 계속 발생하는 것인지, I(inform)인폼성으로 알리는 것인지를 나타내는 부분
C : Class 이며, H(hardware), S(Software)문제인지를 밝히는 부분
Resource는 자원이며, CPU,memory , sysplanar(보드), HBA, 등등의 부분
errpt -aj B6267342 로 해당 IDENTIFIER 부분의 내용을 자세히 볼 수 있는 옵션(aj)을 활용해서 로그를 본다.
location이나 해당 디스크의 위치 등등의 여러 내용이 파악가능하다.
IBM Power 7 이하는 보통 고객사 대부분 hdisk 0,1(rootvg)로 되어있다.
물론 hdisk 0,1외에도 다르게 수정할수도 있으니 제대로 파악할 것!
[4] error 가 hdisk 1에 발생했다고 가정
(4-1)디스크 format 형식 확인하기
#lsdev -Ccdisk
(4-2) format 형식 2번째 확인
pdisk0 멤버로 hdisk8 1개만 raid0으로 생성 되어 있음
(번외로 pdisk는 RAID 0, 5, 6 ,10을 기본적으로 지원한다) 디스크가 1개이므로, raid 0으로 되어있는상태임.
pdisk1은 candidate(후보) 상태
hdisk1,hdisk0은 일반적인 JBOD 상태
(4-3)rootvg 상태(syncd=정상, stale=failed 장애상태) 및 LVM mirror 확인
#lsvg -l rootvg
LPs = Logical partitions
PPS= Physical partitions, LVM mirror에서 LPs 수의 두배인 것은 (LVM Mirror되어있음),
lg_dumplv는 덤프 채우는 LV라서 미러 되어있지 않는게 정상
(번외로 linux의 PE같은 개념임) PE가 모여 PV가 된다.
Physical Volume, PVs가 2개 확인(물리적인 disk라고 생각하면 됨)
LV 상태, 즉 할당 되어 있는 PPs 부분에 error 가 발생 하면 syncd 가 stale로 보임.
(syncd 상태는 두개의 PV가 LVM mirror되어 서로 sync되어 있는 상태)
(4-4) rootvg quorum 상태 확인
#lsvg rootvg
quorum이 1( disabled) 여야 정상이다. enabled상태로 되어있다면 무조건 disabled로 바꿔 줄 것
quorum 을 disabled로 변경 하는 방법1,2 (smitty chvg, 또는 chvg -Qn rootvg명령어)은 밑에 클릭하면 된다.
방법1
#smitty chvg
->Esc + 4로 rootvg 선택
->A QUORUM of disks required to keep the volume group on-line? No로 변경
#lsvg rootvg 로 quorum check
방법2
#chvg -Qn rootvg
옵션에 Qn :Quorum of disk required to keep the volume group on-line? 을 no 로 변경하는 의미와 같음.
(4-5) sysdumplv 확인 및 변경 작업
(삭제 및 재생성// lg_dumplv를 삭제 재생성은 더보기 클릭)
sysdumplv 위치 확인
여기서 덤프를 삭제하기전 LPs PPs 갯수를 꼭 파악하고 작업 완료 후 덤프 재생성할 때 기억해야 한다.
4 : 4 로 unmirror 상태를 기억해놔야 함.
#lsvg -p rootvg
lg_dumplv LP 수 만큼 FREE PPs가 차이가 나고 PV_STATE 상태도 확인 가능함.
#lsvg -l rootvg
보통 sysdumplv는 mirror가 안되어 있고 한쪽 PVs에만 있음. 어느쪽 PVs에 할당되었는지 파악 하려면?
#lslv -m lg_dumplv
#lsvg -l rootvg
lg_dumplv LPs 확인 -> disk replacement 후 재생성을 위해 사전에 LPs 확인
#smitty dump
-> Change the Primary Dump Device
-> PRIMARY dump device 에 /dev/sysdumpnull 입력 후 enter
#sysdumpdev -l 명령어를 통해
primary dump 위치가 /dev/lg_dumplv -> /dev/sysdumpnull로 변경되었는지 확인
Step1~5(unmirrorvg, extendvg, ... mirrorvg) 작업 완료 후 재생성해서 좌측처럼 변경되었는지 확인
Step1 mirror 해제
#smitty unmirrorvg
-> VOLUME GROUP name 에 ESC + 4로 rootvg 선택
-> PHYSICAL VOLUME names 에 ESC +4로 교체 할 hdisk 선택 후 enter.
#lsvg -p rootvg 명령어로 FREE_PPs 와 TOTAL PPs가 같은지 확인.
그리고 lsvg -l rootvg 로 각각의 LV명의 LPs 와 PPs 가 1대1 비율인지 확인 =>unmirror 됨을 의미함
Step2 rootvg에서 해당 장애난 hdisk1 제거하기
#smitty reducevg
-> Remove a Physical Volume from a Volume Group
-> VOLUME GROUP name에서 Esc + 4에서 rootvg 선택
-> PHYSICAL VOLUME name에 Esc + 4에서 교체할 hdisk1 선택 후 enter
#lsvg -p rootvg
rootvg 에서 hdisk#가 reduce되었는지 확인.
hdisk1은 없어지고, hdisk0만 있을 것이다.
Step3 diag 로 물리 디스크 교체 작업
#diag
-> enter
-> Task Selection
-> Hot Plug Task
-> SCSI and SCSI RAID Hot Plug Manager
->Replace/Remove a Device Attached to an SCSI Hot Swap Enclosure Device
->교체할 hdisk#로 이동 후 enter
enter 후 description이 나오는데 내용은 교체 하고 enter 치라는 메시지가 나옴
디스크 물리적으로 교체 완료하고 엔터 누르기
-> 교체 한 slot 상태가 populated 상태 임
이 상태에서 Esc + 0으로 종료 .자동으로 cfgmgr 수행됨.
#lsdev -Cc disk로 해당 교체한 disk 붙었는지 확인.
만약 할당 되지 않았으면 cofig manager 수행
#cfgmgr -v
Step4. rootvg에 교체한 hdisk1 추가하기
#smitty extendvg
-> VOLUME GROUP name에 Esc + 4로 rootvg 선택
-> PHYSICAL VOLUME names Esc + 4로 교체 한 disk 선택
#lsvg -p rootvg
교체 한 disk 추가 되었는지 확인
Step5. rootvg에 mirror 수행하기
#smitty mirrorvg
-> VOLUME GROUP name에 Esc + 4로 rootvg 선택
-> Mirror sync mode를 Esc + 4로 background 선택
-> PHYSICAL VOLUME names에 Esc + 4로 list 확인 후 Esc + 7로 hdisk0,hdisk1(rootvg인 디스크) 두개 모두 선택
#lsvg rootvg의 STALE PPs 갯수가 0으로 떨어질 때까지 봐야 됨.
STALE PPs 값이 점점 떨어지면서 0이 되면 sync 완료 (시간이 오래 걸리므로 1~2개 떨어지는거 확인)
#lsvg rootvg |grep -i stale 또는 실시간 변화를 확인하기 위해선
Step6. bosboot 명령어와 bootlist 명령어를 통해 부트 이미지와 부트 리스트를 재작성
# bosboot –ad /dev/hdisk0
# bootlist –m normal hdisk0 hdisk1
infraleesh@/> lsvg -l rootvg |grep hd5
rootvg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd5 boot 1 2 2 closed/syncd N/A
hd5가 나와야 된다. 해당 영역은 boot 영역이므로 bootlist 를 통해 해당 출력 결과가 나와야 한다.
infraleesh@/> bootlist -m normal -o //로 확인
hdisk0 blv=hd5 pathid=0
hdisk1 blv=hd5 pathid=0
#ipl_varyon –i (부팅 디스크 확인)
'OS Unix [IBM aix] > HW 교체 관련' 카테고리의 다른 글
VRM(Voltage Regulator Module), OCA (0) | 2022.06.12 |
---|---|
none vg 미할당된 디스크 교체 (0) | 2022.06.10 |
SAN SW - VIOS 구간 장애 파악 (0) | 2022.04.20 |