2024.07.24
7월 19일, 전 세계가 'IT 대란'을 겪었습니다. 마이크로소프트의 클라우드 서비스에 장애가 생겨 항공편 결항, 금융 시스템 중단, 게임 서버 접속 이슈 등이 발생한 겁니다. 이번 문제는 미국 사이버 보안업체 크라우드 스트라이크가 배포한 보안 소프트웨어 업데이트가 MS 윈도우 OS와 충돌하면서 발생했습니다. 마이크로소프트에 따르면 윈도우 운영체제를 사용하는 850만 대의 기기가 영향을 받은 것으로 추정됩니다. 이는 전체 윈도우 기기의 1% 미만 수준이지만, 기업 서비스에 영향을 미치면서 파장은 상당했습니다.
전문가들은 이번 문제가 일부 빅테크에 집중된 클라우드 시장 환경에 따른 위험성을 보여준다고 짚고 있습니다. 모두가 같은 서비스에 의존하고, 같은 기술을 사용하기 때문에 동시다발적으로 서비스가 중단되는 현상이 벌어진다는 것이지요. 실제로 글로벌 클라우드 시장의 70%는 AWS, MS애저, 구글클라우드가 차지하고 있습니다.
과학기술정보통신부에 따르면, 국내에서는 10개 기업이 이번 사태로 인해 서비스에 불편을 겪었습니다. 글로벌 대란이 일어난 것에 비하면 피해가 상대적으로 적은 편이죠. 이는 크라우드 스트라이크가 세계 2위 엔드포인트 탐지 및 대응(EDR) 서비스 회사인 반면, 국내에서는 사용하는 기업이 많지 않기 때문으로 분석됩니다.
전문가들은 이번 사태가 특정 클라우드의 문제, 혹은 클라우드 도입의 실패로 비춰지는 것을 경계하고 있습니다. 애초에 클라우드로 인해 발생한 문제가 아니라, 보안 솔루션 업체가 업데이트 전 충분한 테스트를 하지 않아 발생한 이슈이기 때문입니다.
모든 것이 인터넷과 클라우드로 묶인 '초연결사회'에서는 언제든 이번 사례와 같은 상황이 반복될 수 있습니다. 비단 한 기업의 문제가 아니라, 다른 서비스에서도 오류가 발생할 가능성은 항상 존재합니다. 지난 2021년에는 AWS가 오류를 일으키면서 넷플릭스 등 OTT 매체들과 주요 언론매체, 항공사, 기업용 메신저 서비스 등이 장애를 겪은 바 있습니다.
인공지능(AI) 기술의 도입과 IT 서비스 고도화로 클라우드 전환이 활발해지고 있는 시점에서, 안전한 인프라 운영을 위해서는 특정 클라우드에 대한 의존도를 낮추고 복원력을 높이는 '멀티 클라우드'의 도입이 필요합니다. 이는 특정 클라우드에 문제가 생기더라도 다른 서비스를 통해 업무를 계속 이어갈 수 있도록 인프라를 구축하는 전략입니다. 클라우드 벤더 한 곳에만 의존하면 단일 장애점(SPOF)이 발생하여 조직에 연쇄적인 영향을 미칠 수 있지만, 멀티클라우드를 활용하면 이를 방지할 수 있습니다. 과학기술정보통신부에 따르면, 국내기업의 47.7%가 2개 이상의 클라우드 서비스를 이용하고 있습니다.
이밖에 효율적인 재해복구(DR)시스템의 구축, 클라우드 서비스 수준 협약(SLA)의 재점검, 컴플라이언스 강화 등 여러 방법들이 함께 진행될 필요가 있습니다.