[지디넷코리아]
사이버보안의 새로운 시대를 열 것으로 평가받는 앤트로픽의 AI 범용모델 ‘미토스(Mythos)‘에 대해 구글, MS, 시스코, AWS 등 글로벌 빅테크 기업들이 미토스가 발견한 보안 취약점 연구에 들어간 가운데 이의 결과가 오는 7월초 공개될 예정이어서 비상한 관심을 모은다.
또 ‘미토스’가 발견한 이번 보안 취약점은 소형 오픈 AI모델로도 충분히 발견 가능한 것으로 알려졌다. 아울러 이번 ‘파토스 사건’은 보안의 개념을 현재와 같은 ‘탐지 범위(coverage)’ 중심에서 ‘취약점 간 상호작용(interaction)’으로 전환해야 함을 전세계에 시사했다.
근착 미국 매체 벤처비트는 “앤트로픽이 크라우드스트라이크, 시스코, 팔로알토, 마이크로소프트, 애플, 리눅스 파운데이션, AWS 등 12개 기관이 참여하는 협력체 글래스윙 프로젝트(Project Glasswing)를 구성, 파토스의 보안 취약점 찾기 연구에 들어갔다”면서 “앤프로픽이 약 90일 내, 오는 7월초 관련 공개 보고서를 발표한다”고 보도했다.
미토스 보안 취약점을 찾는 글래스윙 프로젝트에는 1억 달러 규모의 크레딧과 400만 달러의 오픈소스 지원금이 투입됐다. 이들 12개 기업 외에 기업 및 기관 약 40곳이 ‘파토스’에 접근할 수 있는 권한을 받았다.
‘미토스’는 사람이 지난 27년간 찾지 못한 취약점을 자율적으로 찾아내는 등 보안면에서 여러 놀라움을 선사했다. 이 취약점은 오픈BSD(OpenBSD)의 TCP(Transmission Control Protocol) 스택 내부에 존재하고 있었는데, 오픈BSD는 세계에서 가장 보안이 강화된 운영체제(OS) 중 하나다. 그동안 수많은 코드 감사와 퍼싱 테스트(취약점을 찾기 위해 자동으로 이상한 입력값을 대량으로 넣어보는 것)를 했지만 찾지 못했다. 그러나 ‘클로드 파토스 프리뷰’를 사용하니, 단 두 개의 패킷만으로 서버를 다운시킬 수 있는 심각한 문제를 발견했다.
이 취약점을 찾는 데 들어간 전체 탐색 캠페인 비용은 약 2만 달러였고, 실제로 해당 취약점을 발견한 모델 실행 비용은 50달러도 되지 않았다. 더 중요한 점은 이 취약점 발견 과정이 초기 프롬프트 이후 인간의 추가 개입 없이 완전히 자율적으로 이뤄졌다는 점이다.

벤처비트는 “이번 (취약점 탐지) 능력 향상은 점진적인 수준이 아니라 구조적인 도약에 가깝다”고 평했다.
파이어폭스 147(Firefox 147) 버전에 대한 취약점 탐지 실험에서 ‘미토스’는 181회 성공한 반면, 이전 세대 모델인 클로드 오퍼스 4.6(Claude Opus 4.6)은 단 2회 성공에 그쳤다. 한 세대 만에 약 90배의 성능 향상이 나타난 셈이다.
또 AI가 소프트웨어 버그를 얼마나 잘 고치는지 평가하는 고난도 벤치마크 테스트인 ‘
SWE-bench Pro’ 평가에서도 ‘미토스’는 77.8%의 성능을 기록, 기존 모델의 53.4%보다 크게 앞섰다. 뿐만 아니라 AI가 실제 보안 취약점을 얼마나 잘 찾아내고 재현하는지 평가하는 사이버보안 실험·평가 테스트인 사이버짐(CyberGym)의 취약점 재현 실험에서도 ‘미토스’는 83.1점을 받아 기존 모델(66.6점)을 앞섰다.
앤트로픽 내부 평가용 ‘사이벤치(Cybench) CTF’에서는 100% 성능을 달성해 더 이상 의미 있는 내부 평가가 어려워졌고, 결국 레드팀은 실제 제로데이 취약점 탐색을 새로운 평가 기준으로 삼아야 했고, 그 결과 주요 운영체제와 주요 브라우저 전반에서 수천 개의 제로데이 취약점이 발견됐으며, 이 중 상당수는 10년에서 20년 이상 존재해 온 취약점이었다고 벤치마크는 전했다.
심지어 정식 보안 교육을 받지 않은 엔지니어들이 원격 코드 실행 취약점을 찾아달라고 요청한 뒤 하룻밤 사이 완전한 취약점 코드를 받아본 사례도 있었던 것으로 알려졌다. 벤처비트는 ‘미토스’가 보안 취약점을 찾아낸 경로에 대해 “이 모델은 암호화 라이브러리를 분석해 취약점을 찾아냈고, 실제 운영 중인 가상 머신 모니터(VMM)에 침투했으며, 보안 교육을 전혀 받지 않은 엔지니어들에게도 하룻밤 사이에 작동하는 취약점(익스플로잇)을 만들어 줬다”고 전했다.
앤트로픽은 ‘미토스’ 취약점을 다른 빅테크들과 공동으로 해결하기 위해 ‘글래스윙’ 프로젝트를 시작했다. 벤치마크에 따르면, 하지만 각 회사 보안 책임자들은 발표 내용을 전달받았지만 실제로 무엇을 어떻게 바꿔야 하는지에 대한 실행 지침(플레이북)은 충분히 전달받지 못했다.
시스코의 보안 및 신뢰 책임자 안쏘니 그리에코(Anthony Grieco)는 “27년 동안 이 업계에 있었지만 지금처럼 빠른 변화는 처음”이라며 “보안 분야에서 할 수 있는 일이 많아졌다는 점에서는 매우 낙관적이지만 동시에 공격자들도 같은 능력을 갖고 있다는 점에서 두렵다”고 말했다.

이번 ‘미토스’ 충격은 보안 업계가 기존에 사용하던 탐지 기법이 어디까지 효과 있고, 어디에서 한계가 있는 지를 보여주기도 했다. 아래는 ‘파토스’가 발견한 그 대표적 7가지 취약점 유형이다.
첫째, OpenBSD의 TCP SACK 취약점 사례다. 이 취약점은 무려 27년 동안 존재해 왔으며, 단 두 개의 조작된 패킷만으로도 서버를 다운시킬 수 있었다. 그러나 정적 분석 도구(SAST), 퍼저(fuzzer), 그리고 보안 감사까지 모두 이 문제를 발견하지 못했다. 그 이유는 TCP 옵션들이 공격 환경에서 어떻게 상호작용하는지를 의미적으로 추론해야만 발견할 수 있는 논리적 결함이었기 때문이다. 이 취약점을 찾아내는 데 들어간 캠페인 비용은 약 2만 달러 수준이었으며, 회당 약 50달러가 들어갔다.
둘째, FFmpeg의 H.264 코덱 취약점이다. 이 취약점은 16년 동안 존재해 있었고, 퍼저가 약 500만 번이나 해당 코드 경로를 실행했음에도 불구하고 한 번도 문제를 유발하지 않았다. 그러나 미토스는 코드의 의미적 구조를 분석해 이 취약점을 찾아냈다. 이 캠페인의 비용은 약 1만 달러 수준이었다.
셋째, FreeBSD의 NFS 원격 코드 실행 취약점(CVE-2026-4747)이다. 이 취약점은 약 17년 동안 존재했으며, 인증 없이 인터넷을 통해 루트 권한을 획득할 수 있는 심각한 문제였다. 앤트로픽의 분석 뿐 아니라 독립적인 재현 실험에서도 동일한 결과가 확인됐다. ‘미토스’는 여러 개의 패킷에 나누어 구성된 20개의 ROP(Return-Oriented Programming) 장비 체인을 자동으로 만들어 공격을 완성했다. 이 과정은 완전히 자율적으로 수행됐다.
넷째, 리눅스 커널(Linux kernel)에서는 로컬 권한 상승 취약점 사례가 제시됐다. ‘미토스’는 심각도가 낮은 취약점 두 개에서 네 개를 연결해 경쟁 상태(race condition)와 KASLR 우회를 통해 완전한 로컬 권한 상승 공격을 만들어냈다. 한 보안 전문가는 “미토스가 원격 커널 공격에는 실패했지만 로컬 공격에서는 성공했다”고 평가했다. 현재 이러한 취약점 연결(chain)을 자동으로 수행하는 도구 체인은 사실상 존재하지 않는다.
다섯째, 모든 주요 웹 브라우저에서 발견된 제로데이 취약점 사례도 포함됐다. 수천 개의 취약점이 식별됐으며, 일부는 인간과 AI의 협업을 통해 발견됐다. 한 사례에서는 ‘미토스’가 네 개의 취약점을 연결해 JIT(Just-In-Time compilation, 프로그램 실행 중(runtime)에 코드를 바로 기계어로 변환해 실행 속도를 높이는 기술) 힙 스프레이 공격을 수행했고, 렌더러(renderer)와 OS 샌드박스 모두 탈출했다. 특히 파이아폭스(Firefox) 147에서는 181개의 실제 동작 가능한 취약점이 작동했는데, 두 개의 Opus 4.6과 비교해 매우 큰 차이를 보였다.
여섯째, TLS, AES-GCM, SSH 같은 암호화 라이브러리에서도 취약점이 발견됐다. 구현 코드에서 발견된 문제들은 인증서 위조나 암호화된 통신 복호화를 가능하게 하는 구현상의 결함이었다. 이는 수학적 암호 알고리즘 자체를 깨는 공격이 아니라, 그 수학을 실제 코드로 구현하는 과정에서 발생한 오류였다.
일곱째, 가상 머신 모니터(VMM, Virtual Machine Monitor, 하나의 물리 컴퓨터 위에서 여러 개의 가상 컴퓨터(가상머신)를 동시에 실행하면서 서로를 격리해 주는 핵심 소프트웨어) 탈출 취약점이다. 클라우드 환경에서 서로 다른 워크로드가 서로의 데이터를 보지 못하도록 보호하는 핵심 기술이 VMM인데, ‘미토스’는 실제 운영 환경의 VMM에서 게스트에서 호스트로 탈출 가능한 메모리 손상 취약점을 찾아냈다. 이는 클라우드 보안 아키텍처가 전제하고 있던 워크로드 간 격리 가정 자체를 흔드는 발견이었다고 벤치마크는 진단했다.
‘미토스’와 관련 앤트로픽의 유명 AI보안 연구자 니콜라스 칼리니(Nicholas Carlini)는 “지난 몇 주 동안 내가 발견한 버그 수가 내 인생 전체에서 발견했던 버그 수를 합친 것보다 더 많다”고 말했다.

클라우드스트라이크(CrowdStrike)의 2026년 글로벌 위협 보고서에 따르면 매 29분마다 사이버공격(eCrime)이 일어나며, 이는 2024년 대비 65% 빨라졌다. 특히 AI 기반 공격은 전년 대비 89% 증가했다.
크라우드스트라이크 CTO 엘리아 자이체프(Elia Zaitsev)는 현재 보안 대응의 현실적인 운영 한계를 설명했다. 그는 “에이전틱(agentic) AI를 활용하는 공격자들은 공격을 매우 빠른 속도로 수행할 수 있기 때문에, 기존처럼 사람이 경보(alert)를 확인하고 분류(triage)한 뒤 15~20분 동안 조사하고, 그 후 한 시간 뒤나 하루 뒤, 혹은 일주일 뒤에 대응 조치를 취하는 전통적인 방식으로는 더 이상 충분하지 않다”고 말했다.
즉 인간 중심 대응 속도로는 이미 AI 기반 공격의 속도를 따라잡기 어렵다는 의미다. 또 약 2만 달러 규모의 ‘미토스’ 취약점 탐지 캠페인이 불과 몇 시간 만에 이뤄질 수 있다는 점도 강조했다. 즉, 과거라면 국가 차원에서 수개월간 수행할 연구 작업을 민간 기업이 대체한 것으로, AI 등장으로 공격 역량의 시간과 비용 구조 자체가 근본적으로 바뀌고 있다는 의미다.
크라우드스트라이크 CEO 조지 쿠르츠(George Kurtz)는 Glasswing 발표가 나온날 링크드인을 통해 두가지 측면에서의 시간 압박 현실을 짚었다. 먼저 7월의 글래스윙 취약점 공개가 있고, 이어 오는 8월 2일부터 EU AI Act가 시행되는데, AI Act는 고위험 AI 시스템에 대해 자동화된 감사 추적 체계 구축, 사이버보안 요구사항 준수, 사고 발생 시 보고 의무 등을 부과했고, 이를 위반할 경우 전 세계 매출의 최대 3%에 해당하는 벌금이 부과될 수 있다.
이반티(Ivanti)의 필드(Field) CISO인 마이크 라이머(Mike Riemer) 역시 “공격자들이 패치를 공개된 뒤 72시간 안에 역공학하고 있기 때문에 그 기간 안에 패치를 적용하지 않으면 이미 공격 위험에 노출된 상태”라고 설명했다. 하지만 현실에서는 많은 조직들이 여전히 1년에 한 번 정도만 패치를 수행하고 있다.
한편 ‘미토스’만이 이런한 버그 탐지 능력을 가진 것은 아니라는 점도 확인됐다. AI 보안 스타트업 AISLE 연구에 따르면 앤트로픽이 공개한 프리BSD 취약점 사례를 테스트했을 때 8개 가운데 8개 소형 오픈모델 모두가 이를 발견했다. 일부 모델은 파라미터 규모가 36억개에 불과했고, 또 백만 토큰당 비용이 0.11달러(약 11센트) 수준이였다. 또 51억 개(5.1 billion) 파라미터 규모의 오픈 모델은 27년간 존재한 OpenBSD 취약점의 핵심 분석 체인(core analysis chain)을 스스로 재구성했다. 이에 AISLE는 “AI 사이버보안 분야에서 경쟁 우위를 만드는 ‘해자(moat)’는 모델 자체가 아니라 시스템이다”고 결론 지었다.
앤트로픽 레드팀에 따르면 ‘미토스’가 발견한 취약점 가운데 99% 이상은 아직 패치되지 않은 상태다. 오는 7월 초 글래스윙 보고서가 공개되면 운용체계, 브라우저, 암호 라이브러리, 주요 인프라 소프트웨어 전반에서 대규모 패치가 동시에 진행되는 ‘패치 쓰나미’가 올 가능성도 높다. 이어 8월 2일부터는 EU AI Act의 다음 단계 규제가 시행되면서 고위험 AI 시스템에 대한 자동 감사 추적, 보안 요구사항, 사고 보고 의무, 그리고 전 세계 매출의 최대 3%에 해당하는 벌금 가능성까지 현실화된다.
이에, 엔크립트AI(Enkrypt AI)의 CSO 메리트 배어(Merritt Baer)는 조직의 보안 잔존 위험을 세 가지로 구분해야 한다고 제안했다. 첫째는 기존 도구로 안정적으로 탐지 가능한 known-knowns, 둘째는 존재는 알지만 탐지 범위가 제한적인 known-unknowns, 셋째는 구성 요소 간 상호작용에서 발생하는 unknown-unknowns이다. ‘미토스’가 주로 발견하는 취약점은 이 세 번째 영역에 해당한다.
그는 취약점 평가 체계 자체도 바뀌어야 한다고 강조했다. FIRST(국제 침해사고 대응 협의체)가 관리하는 글로벌 표준인 기존 CVSS(Common Vulnerability Scoring system, 소프트웨어 취약점 위험도를 숫자로 평가하는 국제 표준 점수 체계. 0~10점으로 수치화)는 개별 취약점 단위의 위험도를 평가하도록 설계됐지만 실제 공격 위험은 여러 취약점이 연결된 경로 형태로 나타나고 있기 때문이다.
따라서 보안 조직은 개별 취약점의 심각도를 기준으로 대응하는 방식에서 벗어나 취약점 경로 전체를 분석하는 방식으로 전환해야 하며, 취약점 목록 중심 관리에서 취약점 그래프 기반 관리로 이동해야 하고, 개별 취약점의 우선순위를 정하는 대신 공격 경로를 끊는 지점을 중심으로 대응 전략을 세워야 한다고 밝혔다.
배어는 “미토스는 단순히 지금까지 발견되지 않은 버그를 찾아내고 있는 것이 아니다. 취약점들이 서로 독립적으로 존재한다는 기존의 가정 자체를 무너뜨리고 있다. 보안 프로그램이 ‘탐지 범위(coverage)’ 중심의 사고에서 ‘취약점 간 상호작용(interaction)’ 중심의 사고로 전환하지 않으면, 공격 경로는 이미 위험한 상태인데도 불구하고 대시보드에는 계속 안전(초록색) 상태로 표시되는 상황이 이어질 것”이라고 강조했다.
