Claude Mythos Preview: 너무 위험해서 공개할 수 없는 AI

Cybersecurity Shift · Anthropic

Anthropic은 이번 발표에서 "새 모델이 나왔다"보다 더 불편한 메시지를 던졌다. 범용 모델의 코드 추론·자율성 향상이 어느 순간 exploit 자동화로 이어졌고, 이제 기존 보안 관행만으로는 버티기 어려운 과도기가 시작됐다는 선언이다.

핵심 한 줄 — 버그 탐지의 개선이 아니라 공격 자동화의 임계점
왜 공개 안 하나 — 일반 공개보다 제한 배포(Project Glasswing)를 택함
비교 기준 — 공개된 red.anthropic.com 자료 기준으로 Mythos / Opus 4.6 / Sonnet 4.6 비교

Claude Mythos Preview cover

이 글은 Anthropic의 공개 포스트 Assessing Claude Mythos Preview's cybersecurity capabilities를 바탕으로, 왜 Mythos Preview가 "공개하기엔 너무 위험한 AI"로 읽히는지 정리한 것이다. 각 소주제 이미지는 웹 본문에 자연스럽게 붙도록 Remotion으로 별도 렌더링한 와이드 정리 카드다.

참고: Anthropic은 발견한 취약점의 99% 이상이 아직 패치되지 않았기 때문에 세부 익스플로잇을 공개하지 않았다. 그래서 이 글 역시 원문이 공개한 범위 안에서만 수치와 해석을 정리한다.

이 발표의 본질은 "성능 자랑"이 아니라 사이버 보안 질서 변화 경고다

Mythos Preview는 겉으로는 범용 모델이다. 하지만 Anthropic이 공개한 기술 포스트의 어조는 전형적인 모델 런치와 다르다. 전체 글은 "얼마나 잘하느냐"보다 "이 능력이 산업 전체에 어떤 운영 리스크를 만들 것인가"에 훨씬 더 많은 비중을 둔다.

가장 상징적인 대목은 이 문장이다. Anthropic은 Mythos Preview가 모든 주요 운영체제와 주요 웹브라우저에서 zero-day를 찾고 exploit까지 구성할 수 있었다고 적는다. 그것도 단순한 stack-smashing 수준이 아니라, 여러 취약점을 체인으로 묶어 샌드박스를 탈출하는 식의 복합 공격까지 포함한다.

요컨대 Anthropic은 "강력한 AI"를 자랑한 게 아니라, "기존 방어 모델이 더 빨리 흔들릴 수 있다"는 사실을 공개적으로 인정했다.

범용 모델의 공격 자동화 임계점

가장 무서운 건 "사이버 공격용으로 따로 훈련하지 않았다"는 고백이다

Emergent offense

Anthropic은 Mythos Preview를 exploit 전용 모델로 학습시키지 않았다고 분명히 말한다. 대신 코드 이해, 추론, 자율성 같은 범용 능력이 올라가면서 공격 자동화 능력이 따라 올라왔다고 설명한다.

이건 중요한 전환점이다. 앞으로 위험한 모델은 굳이 "공격 특화 데이터셋"을 먹이지 않아도, 범용 모델 경쟁에서 자연스럽게 튀어나올 수 있다는 뜻이기 때문이다. 즉 보안 리스크는 특정 연구팀의 의도적 선택이 아니라, 일반적인 성능 개선의 부산물이 될 수 있다.

패치 능력과 exploit 능력이 같은 능력축에서 같이 증가할 수 있다.
"방어용 AI"와 "공격용 AI"의 구분이 점점 무의미해질 수 있다.
모델 공개 정책은 성능보다 배포 통제와 모니터링 역량이 더 중요해진다.

기존 벤치마크가 더는 구분력을 주지 못하자, 평가가 현실 세계 zero-day로 이동했다

이 글에서 놓치면 안 되는 포인트는 평가 방식의 변화다. Anthropic은 Mythos Preview가 기존 취약점 탐지·익스플로잇 벤치마크를 사실상 포화시키자, 실제 zero-day를 찾는 방향으로 평가축을 옮겼다고 설명한다.

왜 zero-day가 중요할까? 원문 표현을 빌리면, 암기된 해답이 아니라 genuine capability를 확인하는 가장 깔끔한 방법이기 때문이다. 점수표가 아니라 실제 버그 헌팅 능력으로 넘어간 셈이다.

이 변화는 단순한 벤치마크 교체가 아니다. 모델 평가가 실험실에서 현실 세계 운영 리스크 평가로 넘어갔다는 의미다.

Zero-day 중심 평가로의 이동

Mythos Preview vs Opus 4.6 vs Sonnet 4.6

아래 비교는 Anthropic이 이번 포스트에서 공개한 수치와 설명만 사용했다. 다른 회사 모델과의 직접 비교는 원문이 제공하지 않으므로 넣지 않았다.

비교 항목	Claude Mythos Preview	Claude Opus 4.6	Claude Sonnet 4.6
포지셔닝	범용 모델이지만 사이버 공격 자동화 능력이 두드러짐	공개된 frontier 모델, 버그 발견·수정에는 매우 강함	공개된 frontier 모델, OSS-Fuzz 기준 비교군
자율 exploit 개발	Firefox 147 JS 엔진 벤치마크에서 working exploit 181회, register control 29회 추가	같은 벤치마크에서 several hundred attempts 중 working exploit 2회	원문에서 해당 벤치마크 수치 미공개
OSS-Fuzz 계열 내부 평가	tiers 1·2 합산 595건, tiers 3·4 일부, tier 5(control-flow hijack) 10건	tiers 1: 150~175건, tier 2 약 100건, tier 3는 1건	tiers 1: 150~175건, tier 2 약 100건, tier 3는 1건
비전문가 활용성	보안 훈련이 없는 엔지니어도 overnight RCE exploit 결과를 받을 수 있었다고 기술	취약점 발견은 강하지만 exploit 작성은 훨씬 약함	공개 설명 없음
훈련 방식 해석	공격 특화 훈련이 아니라 코드·추론·자율성 향상에서 emergent	같은 개선 축 위에 있지만 exploit 성능은 Mythos보다 낮음	비교군 역할만 공개됨
배포 정책	일반 공개 계획 없음. Project Glasswing로 제한 배포	일반적으로 사용 가능한 모델	일반적으로 사용 가능한 모델

핵심 수치만 뽑으면 이렇다. 181 working exploits · 29 register-control cases · 595 low/mid-tier crashes · 10 tier-5 hijacks · limited release via Glasswing.

더 무서운 대목은 전문 공격자가 아니어도 overnight exploit을 얻는다는 점이다

Overnight exploit 사이클

원문에서 가장 섬뜩한 문장 중 하나는 이것이다. Anthropic의 비보안 엔지니어가 저녁에 원격 코드 실행 취약점을 찾아보라고 지시해두고, 다음 날 아침 완성된 exploit을 받았다는 설명이다.

이건 단순히 "모델이 똑똑하다"는 말과 다르다. 기존에는 고급 공격 능력의 병목이 숙련 연구자의 희소성이었다면, 이제는 도구 운용·검증·자동화 파이프라인으로 이동할 수 있음을 뜻한다.

희소한 전문가의 생산성이 높아지는 수준이 아니라, 공격 능력의 분산이 시작될 수 있다.
방어 측은 인재 확보만으로 버티기 어려워지고 운영 자동화가 더 중요해진다.
'누가 공격할 수 있는가'보다 '얼마나 빨리 반복할 수 있는가'가 핵심 변수가 된다.

Anthropic이 진짜 경고하는 건 friction 기반 방어의 약화다

원문은 tedious step, 즉 공격자의 귀찮음을 전제로 한 완화책이 빠르게 무력화될 수 있다고 지적한다. 반면 KASLR, W^X 같은 hard barrier 성격의 보호책은 여전히 중요하다고 선을 긋는다.

이 차이는 꽤 실무적이다. "조금 불편하게 만들어서 공격 비용을 높이는 방식"은 AI가 반복 작업을 자동화할수록 효과가 약해진다. 반대로 구조적으로 막는 방어는 여전히 시간을 벌어준다.

이제 방어는 '귀찮게 만들기'보다 '실제로 막기'에 더 많은 예산을 써야 한다.

Friction vs hard barrier

그래서 Project Glasswing는 제품 마케팅이 아니라 배포 통제 전략이다

Project Glasswing 배포 전략

Anthropic은 Mythos Preview를 일반 공개할 계획이 없다고 말한다. 대신 critical industry partners와 open-source developers에 제한적으로 배포하는 Glasswing를 시작했다.

이 선택은 "우리가 좋은 모델을 만들었다"는 발표보다 "이런 모델을 세상에 어떻게 먼저 흘려보낼 것인가"에 초점을 둔다. 결국 Glasswing는 기능 소개가 아니라 리스크 관리 실험이다.

중요한 건 Anthropic도 Mythos-class 모델을 언젠가 안전하게 대규모 배포하고 싶어 한다는 점이다. 다만 그 전에 가장 위험한 출력을 감지·차단할 안전장치가 먼저 준비돼야 한다는 것이다.

Mythos Preview가 진짜로 보여준 것은 "더 똑똑한 모델"이 아니라 "불안정한 과도기"다

Anthropic의 Mythos 글을 한 문장으로 요약하면 이렇다. 공격 능력은 일부 특수 모델에서만 생기는 게 아니라 범용 모델 개선의 부산물로도 등장할 수 있고, 그 속도는 업계가 예상한 것보다 빠르다.

그래서 이 이슈의 핵심은 "Anthropic이 얼마나 셌느냐"가 아니다. 앞으로 공개될 다른 frontier 모델들도 비슷한 궤적을 따라갈 가능성이 높다는 점이다. 지금 필요한 건 더 멋진 데모가 아니라, 더 강한 방어·배포 통제·관측 체계다.

Mythos Preview는 공개되지 않은 모델이지만, 공개된 메시지는 분명하다. 공격과 방어의 균형은 이미 흔들리기 시작했다.

원문 출처: Assessing Claude Mythos Preview's cybersecurity capabilities