개인 기업분석/KT Cloud

KT 네트워크 장애 211029

infra 2022. 7. 19. 17:30

https://www.msit.go.kr/bbs/view.do?sCode=user&mPid=112&mId=113&bbsSeqNo=94&nttSeqNo=3180886 

 

 

 

보도자료 - 과학기술정보통신부

과기정통부, 케이티(KT) 연결망(네트워크) 장애 원인분석 결과 발표 관련 보도자료 내용입니다. 자세한 내용은 첨부파일을 참고하시기 바랍니다. ※ 대용량 첨부파일은 바로보기가 지원되지 않

www.msit.go.kr

국내 ISP 업체 중 하나인 KT에서  당시, 네트워크 장애로 약 90분간 장애가 발생한 적이 있었으며, 아직도 기억이 난다.

 

 

 

DNS 서버 내 급격한 트래픽 증가로 인해 DDoS 공격이었는지 아니면 라우팅 오류가 어떻게 발생하였는지 
내용을 자세하게 서술해 있다.

 

우선 DNS와 DDoS 의 정의 및 공격 유형 또한 해당 사이트에 나와있으며 캡쳐본은 다음과 같다.

 


1.DNS 원리

 

2.DDoS 정의 및 공격 유형

 

3. 라우터 역할 및 동작 방식

 

 

2.원인 분석



<1>DDoS 공격 여부 분석


당시, primary DNS 및 secondary DNS 서버에 평소대비 큰폭으로 트래픽 증가가 발생했었다.
[1]1개의 불특정 IP가 다량의 Domain (또는 존재하지 않는 비정상 도메인)을 DNS 서버에 질의하는 시스템 자원을 과부하 걸리도록 하는 자원공격
(1) 패킷분석 결과 개별 IP에 대한 DNS질의는 최대 15개 수준이라, 다량의 도메인 질의도 없었음
(2) 패킷분석 결과 비정상적인 도메인의 반복적인 질의도 없었음
=> DDoS 공격은 없었음을 분석 완료

cf)*DDoS 공격 시 보통 개별IP 1개에서 수백,수천개의 질의가 발생한다.


[2] 네트워크 대역폭 공격 : 대량의 네트워크 packet을 DNS 서버에 전송하여 서비스 대역폭을 채움
=>트래픽 분석 결과, 중앙 1차 DNS 서버 및 부산 DNS 서버 의 일정 트래픽만 유입이 있어서, 충분히 수용 가능한 수준이므로, 네트워크 대역폭 공격은 아님으로 판단.



<2> 라우팅 오류 및 장애 확산 분석


협력직 작업자가 script를 수행했는데 script끝에 exit 명령어를 누락하여 BGP 프로토콜에서 교환해야할 경로 정보가 IS-IS 프로토콜로 전송되었음
=>IS-IS 프로토콜에 수십만개의 BGP 프로토콜 정보가 잘못 전송되어, 라우팅 경로에 오류가 발생함



*BGP : 외부라우터와 경로 정보를 주고받는 프로토콜, 통상 수십만개 수준의 경로정보를 교환
*IS-IS : 내부 라우터 간 경로 정보를 주고받는 프로토콜, 통상 1만개 이하의 경로정보를 교환



https://infraleesh.tistory.com/196   <<<에서 EGP (외부 게이트웨이 프로토콜)에 속한 BGP 설명이 있다.

 


3.분석 결과

 


4.향후 조치 방향

 

1)네트워크 안정성 확보 방안 마련

 

[1]단기대책

 

1)네트워크 작업체계, 기술적 오류확산 방지등의 네트워크 관리체계를 점검,
2)네트워크 작업으로 인한 오류 여부를 사전에 진단할 수 있게 시뮬레이션 시스템 도입.

3)네트워크관제센터에서 기술적 점검 체계를 구축  (ITSM 내 승인된 작업계획서 내용 및 절차가 준수한지 파악)

4)라우팅 작업 시, 한번에 업데이트 되는 경로 정보의 개수를 일정 수준이하로 제한

 

 

[2]중 장기 대책

 

1) 주요 통신 사업자에 대한 모니터링 체계 강화,

2) 네트워크 안정성 및 복원력을 높이는 기술 개발

 

2)