Anthropic, 신화급 AI '페이블 5' 공개…사이버 보안 쿼리는 하위 모델로 자동 전환

Anthropic의 Claude Fable 5는 일반 사용자에게 Mythos급 지능을 제공하지만, 사이버 보안 쿼리는 자동으로 덜 강력한 모델로 다운그레이드됩니다.

Anthropic은 사이버 보안 및 생물학 연구 쿼리를 구형 Opus 4.8 시스템으로 다운그레이드하는 신화급(Mythos-class) AI 모델인 Claude Fable 5를 출시했다. 이는 자사가 보유한 가장 강력한 기술을 일반에 광범위하게 공개한 첫 번째 사례다.

"We wanted to be able to provide this level of intelligence for general users in a safe manner," Dianne Penn, Anthropic의 제품 관리, 연구 및 랩 총괄 책임자는 월스트리트저널(WSJ)에 말했다.

Fable 5는 입력 토큰 100만 개당 10달러, 출력 토큰 100만 개당 50달러로, Claude Mythos Preview 대비 절반 미만의 가격이다. 이 모델은 소프트웨어 엔지니어링, 비전, 지식 작업 벤치마크 전반에서 이전 모든 Claude 시스템을 능가하는 성능을 보여준다. Stripe는 Fable 5를 활용해 5,000만 줄 규모의 Ruby 저장소에서 단 하루 만에 코드베이스 전체 마이그레이션을 완료했는데, 이 작업은 수작업으로 진행할 경우 두 달 이상이 소요될 것으로 예상됐다.

이번 출시는 Anthropic이 자사의 안전 분류 체계가 최첨단 AI를 상업화하는 데 충분히 견고하다고 판단하고 있음을 시사한다. 그러나 초기 테스트 결과에 따르면 이러한 안전장치가 알려진 것보다 더 광범위하게 적용될 가능성이 있어, 핵심 고객층인 사이버 보안 전문가들에게는 모델의 유용성이 제한될 수 있다.

안전장치 작동 방식

Fable 5는 사이버 보안, 생물학, 화학, 모델 증류 관련 요청을 감지하는 AI 기반 분류기를 사용한다. 해당 요청이 감지되면 시스템은 Fable 5 대신 Claude Opus 4.8로 쿼리를 라우팅한다. Anthropic에 따르면 이러한 폴백은 전체 세션의 5% 미만에서 발생하므로, 대부분의 사용자는 일반적인 사용 시 완전한 신화급 모델과 상호작용하게 된다.

회사는 이러한 안전장치를 의도적으로 보수적으로 설계했으며, 편의성보다 안전성을 우선시한다고 설명한다. Anthropic은 외부 버그 바운티 프로그램을 운영한 결과 1,000시간 이상의 테스트에서 단 하나의 범용 탈옥도 발생하지 않았다고 밝혔으나, 영국 AISI는 짧은 초기 테스트 기간 내에 하나에 근접한 성과를 거둔 바 있다.

SANS 연구소의 최고 AI 책임자 겸 연구 책임자인 Rob T. Lee는 CSO와의 인터뷰에서 자신의 일상적인 사이버 보안 업무(사고 대응, 탐지, 기본 포렌식 워크플로)가 초기 테스트 중 Fable 5에서 Opus 4.8로 자동 라우팅되었다고 밝혔다. 이러한 관찰이 더 광범위한 테스트에서도 확인된다면, 이는 Anthropic의 분류기가 악의적 활동과 정상 활동을 구분하기보다 사이버 보안 관련 요청을 광범위하게 식별하고 있음을 의미할 수 있다.

사이버 수비수를 위한 Mythos 5

선별된 사용자 그룹을 위해 Anthropic은 Fable 5와 동일한 기본 모델이지만 사이버 안전장치가 제거된 Claude Mythos 5도 함께 출시한다. 프로젝트 글래스윙(Project Glasswing)을 통해 Verizon 및 Microsoft를 포함한 약 200개 조직이 제한 없는 버전에 접근할 수 있게 된다. Anthropic은 미국 정부와 협의하여 개발된 광범위한 신뢰할 수 있는 접근 프로그램(trusted-access program)을 통해 점진적으로 접근 권한을 확대할 계획이다.

회사는 Mythos 5가 소프트웨어 취약점 발견, 익스플로잇 개발 지원, 복잡한 다단계 사이버 보안 작업 수행 능력을 포함하여 현재 출시된 어떤 모델보다 가장 강력한 사이버 보안 역량을 갖추고 있다고 밝혔다. 이러한 능력이 바로 Anthropic이 이전 버전의 기술에 대한 접근을 제한하게 된 정확한 이유다.

보안 리더에게 주는 의미

CISO와 보안 팀에게 이번 발표는 조직이 점점 더 강력해지는 AI 시스템에 얼마나 신속히 적응할 수 있을지에 대한 의문을 제기한다. 더 이상의 과제는 단순히 고급 모델에 접근하는 것이 아니라, 이를 측정 가능한 이점을 창출하는 방식으로 보안 운영에 통합하는 데 있다.

Cisco의 수석 부사장 겸 최고 보안 및 신뢰 책임자인 Anthony Grieco는 조직이 강력한 보안 기반을 유지하면서도 효과적으로 강력한 모델을 배포하는 데 집중해야 한다고 말했다. "최첨단 AI 개발 속도는 실시간으로 보안 환경을 변화시키고 있으며, 수비수들은 상황이 정리될 때까지 기다릴 여유가 없습니다," Grieco는 성명을 통해 밝혔다.

동시에 Grieco는 AI를 기초 보안 관행의 대체재로 보는 것에 대해 경고했다. "AI는 수비수가 할 수 있는 역량의 한계를 높여주겠지만, 보안 회복력(security resilience)은 그러한 이점이 실제 보호로 이어지는지를 결정하는 기반으로 남아 있습니다,"라고 그는 말했다. AI 모델이 소프트웨어 엔지니어링, 분석, 보안 운영을 가속화하더라도 조직은 여전히 패칭, 다중 인증, 네트워크 분할, 제로 트러스트 아키텍처와 같은 기본 원칙을 실행해야 한다.

공개적으로 거래되지 않는 Anthropic의 주식은 직접적인 시장 영향이 없다. 그러나 이번 출시는 경쟁사인 OpenAI와 Google이 Mythos급 역량을 따라잡으면서도 동등한 수준의 안전 기준을 유지해야 하는 압박을 가한다. OpenAI는 월요일 자체 기밀 S-1 서류를 제출했다고 발표했으며, Elon Musk의 xAI를 포함하는 SpaceX는 이번 주 나스닥에서 거래를 시작할 예정이다.

본 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.