Sakana Fugu, SWE-Bench Pro에서 73.7점 기록, 단일 AI 모델에 도전장

Sakana AI의 새로운 Fugu 오케스트레이션 프레임워크가 SWE-Bench Pro에서 73.7점을 기록하며 Anthropic의 Claude Opus 4.8(69.2점)과 OpenAI의 GPT-5.5(58.6점)를 능가했다. 이는 단일 모놀리식 아키텍처에 의존하는 대신 특화된 모델 풀에 하위 작업을 분배하는 방식이다. 도쿄 기반의 이 스타트업의 접근법은 업계의 지배적인 전략인 점점 더 거대한 기초 모델을 확장하는 방식에 도전한다.

"Fugu는 세계 최고의 모델들을 동적으로 오케스트레이션하여 복잡한 작업을 처리합니다. 우리는 잘 오케스트레이션된 교체 가능한 에이전트 풀이 제한된 최첨단 모델과 견줄 수 있다는 것을 입증하고 있습니다."라고 Sakana AI의 CEO이자 공동 창업자인 데이비드 하(David Ha)가 X에 게시한 글에서 밝혔다. 전 Google Brain 출신인 Ha는 'Attention Is All You Need' 논문의 공동 저자인 라이언 존스(Llion Jones)와 함께 2023년 Sakana를 공동 창업했다.

Fugu는 독립형 모델이 아닌 마스터 코디네이터 역할을 한다. 복잡한 요청이 들어오면 문제를 하위 작업으로 분해하고, 전문 기초 모델 풀에 위임하며, 결과를 검증하고, 최종 출력을 종합한다 — 이 모든 과정이 단일 OpenAI 호환 API 엔드포인트 뒤에서 이루어진다. 이 시스템은 Sakana의 2026년 연구 논문 두 편, TRINITY와 Conductor에 기반을 두고 있으며, 이 논문들은 수동으로 설계된 워크플로우가 아닌 학습된 조정 전략을 모델에 가르친다. 일상적인 작업용 표준 Fugu와 AI 연구 및 사이버보안 분석 같은 고위험 작업용 Fugu Ultra의 두 가지 변형이 제공된다.

이번 출시는 미국 정부의 수출통제 명령 이후 Anthropic이 가장 강력한 모델인 Claude Mythos 5와 Claude Fable 5에 대한 공개 접근을 철회한 지 2주 만에 이루어졌다. 이 조치는 기업과 국가들이 오랫동안 우려해 온 취약점을 드러냈다: 최고 수준의 AI에 대한 접근이 지정학적 결정으로 인해 하룻밤 사이에 사라질 수 있다는 것이다. Fugu의 아키텍처는 AI 스택에 기본적인 이중화를 구축한다 — 한 공급자가 제한에 직면하면 시스템이 장애를 우회한다. Fugu 풀의 특정 모델과 이를 조정하는 방식은 독점 기술로 남아 있지만, 개발자는 규정 준수를 위해 특정 공급자를 라우팅 풀에서 제외할 수 있다.

Fugu의 벤치마크 성능 비교

Fugu Ultra는 몇 가지 주요 벤치마크에서 제한된 최첨단 모델과 동등하거나 더 나은 성능을 기록했다. 정기적으로 업데이트되는 소프트웨어 문제에 대한 코딩 성능을 테스트하는 LiveCodeBench에서 Fugu Ultra는 93.2점, 표준 Fugu는 92.9점을 기록하여 모두 Anthropic의 Claude Fable 5(89.8점)를 능가했다. 생물학, 물리학, 화학 분야의 대학원 수준 객관식 문제를 테스트하는 GPQA-Diamond에서는 두 Fugu 변형 모두 95.5점을 기록, Claude Mythos Preview(94.6점)를 앞질렀다.

그러나 Fugu가 모든 면에서 앞서는 것은 아니다. SWE-Bench Pro에서 Fugu Ultra의 73.7점은 Fable 5의 80.0점에 뒤졌다 — 해당 모델은 수출통제 명령으로 인해 현재 Fugu의 교체 가능한 풀에 포함되어 있지 않다. Humanity's Last Exam에서 Fugu Ultra는 50.0점으로 Fable 5의 53.3점에 못 미쳤다. 장기 컨텍스트 리콜(MRCRv2)에서는 OpenAI의 GPT-5.5가 94.8점으로 Fugu Ultra의 93.6점을 앞섰다. 이러한 결과는 단일 제한된 영역 내에서의 단순 추론 작업에서는 가장 큰 독립형 모델이 여전히 우위를 점하고 있음을 시사한다 — 단, 기업이 중단 없는 접근을 유지할 수 있다면 말이다.

가격 정책과 오케스트레이션의 경제학

Fugu Ultra는 입력 토큰 100만 개당 5달러, 출력 토큰 100만 개당 30달러로 책정되어 시장에서 가장 비싼 옵션 중 하나에 속한다 — 이는 OpenAI의 GPT-5.5(각각 5달러 및 30달러)와 비슷한 수준이며, 현재 제한된 Anthropic의 Fable 5(10달러 및 50달러)보다는 훨씬 낮다. 그러나 중요한 주의사항이 있다: Fugu가 하위 작업을 위임하고 에이전트 간에 라우팅할 때 소비되는 백그라운드 토큰은 제공자가 흡수하지 않는다. 이는 실제 토큰 사용량을 나타내며 표준 요율로 최종 가격에 포함된다.

크리에이티브 에이전시 소유주 마크 산토스(Mark Santos)의 실제 테스트는 이러한 트레이드오프를 보여주었다. Three.js를 사용하여 'Crossy Road' 게임 클론을 구축하는 작업에서 Fugu Ultra는 약 89,000개의 토큰을 사용하여 22분 만에 약 7.32달러에 작업을 완료했지만, 최종 게임은 사소한 로직 오류가 있었다. Claude Opus 4.8은 79분이 걸렸고 약 940,000개의 토큰을 소모하여 약 37.85달러가 들었으며, 재시도 루프에서 벗어나기 위해 사람의 개입이 필요했지만 — 궁극적으로 더 우수한 애플리케이션 디자인을 제공했다.

오케스트레이션 환경과 투자자에게 미치는 의미

Fugu는 Not Diamond, Martian 또는 오픈소스 RouteLLM 프레임워크와 같은 표준 라우팅 플랫폼과 근본적으로 다른 패러다임에서 작동한다. 이러한 시스템은 들어오는 프롬프트를 분석하여 단일 모델에 전달하는 일회성 라우팅 결정을 내린다. 반면 Fugu는 Router-R1과 같은 복잡한 다중 라운드 시스템에 더 가깝게 정렬되어, 쿼리를 분해하고, 추론과 위임을 인터리빙하며, 출력을 종합하기 전에 여러 모델에 하위 작업을 병렬로 할당한다.

막대한 컴퓨팅 없이 최첨단 성능을 달성하는 오케스트레이션 모델의 등장은 단일 기업을 넘어 시사하는 바가 크다. 골드만삭스의 1-델타 데스크 책임자인 리치 프리보로츠키(Rich Privorotsky)는 AI 하드웨어 투자 테제의 핵심 지표로 서버 임대 비용을 지목했다. 오케스트레이션이 대규모 GPU 클러스터의 필요성을 줄인다면, 하이퍼스케일러와 GPU 공급업체의 마진을 압박할 수 있다. 반도체 ETF는 지난주 비정상적으로 높은 유입을 기록했는데, 이는 시장이 계속된 컴퓨팅 수요에 베팅하고 있음을 시사한다 — Fugu와 같은 오케스트레이션 모델이 결국 이에 도전할 수 있음에도 말이다.

2025년 후반 시리즈 B 라운드에서 26억 달러(약 3조 6천억 원)의 가치평가를 받은 Sakana는 오픈소스 측면에서도 경쟁 압력에 직면하고 있다. Zhipu AI의 GLM-5.2는 FrontierSWE 벤치마크에서 74.4점을 기록, Claude Opus 4.8의 75.1점에 단 1점 차이로 근접하면서도 가격은 Anthropic 모델보다 72~82% 낮다. 이 모델은 MIT 라이선스를 사용하며 가중치 공개, 증류 및 양자화를 지원한다.

Fugu는 대부분의 지역에서 즉시 사용 가능하며, 유럽연합(EU)과 유럽경제지역(EEA)은 Sakana가 블랙박스 데이터 라우팅 아키텍처를 GDPR 규정에 맞추는 작업을 하는 동안 일시적으로 제외된다. 구독 요금제는 표준 사용 시 월 20달러부터 시작하며, 엔터프라이즈 종량제 요금제는 프로덕션 워크로드에 대해 더 높은 우선순위를 제공한다.

투자자들에게 핵심 질문은 오케스트레이션이 전통적인 컴퓨팅 지출의 보완재인지 대체재인지 여부다. Fugu의 접근법이 광범위하게 채택된다면 대규모 GPU 클러스터에 대한 수요를 압축할 수 있으며 — 이는 엔비디아와 AMD에 역풍이 될 수 있다. 그러나 시장이 이를 기존 인프라 위의 추가 계층으로 본다면 AI 추론의 총 주소 가능 시장(TAM)을 확장할 수 있다. 다음 신호는 기업 채택률과 하이퍼스케일러가 가격을 조정하는지 여부에서 나올 것이다.

본 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.