Sakana Fugu在SWE-Bench Pro上取得73.7分，挑战单体AI模型

Sakana AI的最新Fugu编排框架在SWE-Bench Pro基准测试中取得73.7分，超越Anthropic的Claude Opus 4.8（69.2分）和OpenAI的GPT-5.5（58.6分）。该框架并非依赖单一单体架构，而是通过将子任务路由至专业模型池来完成。这家总部位于东京的初创公司所采用的方法，对行业当前不断扩大基础模型规模的主导策略构成了挑战。

"Fugu能够动态编排全球最优秀的模型来处理复杂任务。我们正在证明，一个编排得当、可互换的智能体池能够达到受限前沿模型的水平，"Sakana AI联合创始人兼首席执行官David Ha在X平台上发文表示。Ha曾任职于Google Brain，于2023年与Llion Jones共同创立Sakana。Jones是开创性论文《Attention Is All You Need》的合著者之一。

Fugu是作为一个主协调器而非独立模型运行的。面对复杂请求时，它会将问题分解为多个子任务，分配给专业基础模型池，验证其输出结果，并综合生成最终回复——所有这一切都在一个兼容OpenAI的API端点背后完成。该系统基于Sakana在2026年发表的两篇研究论文——TRINITY和Conductor，这两篇论文教会模型学习协调策略，而非依赖人工设计的工作流。Fugu提供两个版本：用于日常任务的standard Fugu，以及面向AI研究和网络安全分析等高危工作负载的Fugu Ultra。

此次发布正值Anthropic在美国政府出口管制令发布两周后撤回其最强模型Claude Mythos 5和Claude Fable 5的公共访问权限。此举暴露了企业和国家长期以来的隐忧：顶级AI的访问权限可能因地缘政治决策一夜之间消失。Fugu的架构在AI堆栈中内置了原生的冗余能力——若某家供应商受到限制，系统可绕开该中断继续运行。Fugu模型池中的具体模型及其协调方式仍属专利技术，但开发者可根据合规需求将特定供应商排除在路由池之外。

Fugu的基准测试表现如何对标前沿模型

在多个关键基准测试中，Fugu Ultra达到或超越了受限前沿模型的表现。LiveCodeBench测试的是针对定期更新的软件问题的编程能力，Fugu Ultra得分93.2，标准Fugu得分92.9，均高于Anthropic的Claude Fable 5（89.8分）。在GPQA-Diamond测试（涵盖生物学、物理学和化学的研究生水平多选题）中，两款Fugu版本均获得95.5分，略高于Claude Mythos Preview的94.6分。

然而，Fugu并非全面胜出。在SWE-Bench Pro上，Fugu Ultra的73.7分落后于Fable 5的80.0分——后者因出口管制令目前无法纳入Fugu的可交换模型池。在"人类最后的考试"（Humanity's Last Exam）中，Fugu Ultra得分为50.0，Fable 5为53.3。在长上下文召回测试（MRCRv2）中，OpenAI的GPT-5.5以94.8分领先，Fugu Ultra为93.6分。这些结果表明，在单一受限领域内的强推理性任务中，最大的独立模型仍具优势——前提是企业能够保持不间断的访问权限。

定价与编排的经济学

Fugu Ultra的定价为每百万输入token 5美元、每百万输出token 30美元，属于市场上价格较高的选项之一——与OpenAI的GPT-5.5（分别为5美元和30美元）相当，远低于Anthropic现已受限的Fable 5（分别为10美元和50美元）。然而，一个重要的注意事项是：Fugu在委托子任务和在智能体之间路由时消耗的后台token并未由提供商承担。这些token代表着实际的token使用量，将按标准费率计入最终价格。

创意机构所有者Mark Santos进行的实际测试展示了其中的利弊权衡。在使用Three.js构建"Crossy Road"游戏克隆版时，Fugu Ultra在22分钟内完成，消耗约89,000个token，花费约7.32美元，但最终游戏存在轻微的逻辑错误。Claude Opus 4.8耗时79分钟，消耗约940,000个token，花费近37.85美元，且需要人工干预才能跳出重试循环——但最终产出的应用设计更为出色。

编排领域的格局及其对投资者的意义

Fugu的运作范式与Not Diamond、Martian或开源RouteLLM框架等标准路由平台有着根本性不同。这些系统进行一次性的路由决策——分析输入的提示词并将其分派给单个模型。相比之下，Fugu更接近Router-R1等复杂的多轮系统，会对查询进行分解，将推理与委派交织进行，并行地将子任务分配给多个模型，最后综合生成输出结果。

无需蛮力计算即可达到前沿性能的编排模型的出现，其影响已超越任何单一公司。高盛1-Delta交易台主管Rich Privorotsky已将服务器租赁成本视为AI硬件投资主题的核心指标。如果编排降低了大规模GPU集群的需求，可能会对超大规模云服务商和GPU供应商的利润率构成压力。半导体ETF上周录得异常高的资金流入，表明市场仍押注算力需求将持续增长——而Fugu这类编排模型最终可能挑战这一押注。

Sakana在2025年末的B轮融资中估值达到26亿美元，同时也在面临来自开源领域的竞争压力。智谱AI的GLM-5.2在FrontierSWE基准测试中取得74.4分，与Claude Opus 4.8的75.1分仅差1分，而定价比Anthropic的模型低72%至82%。该模型采用MIT许可证，支持权重开放、蒸馏和量化。

Fugu现已面向大多数地区开放，暂时不包括欧盟和欧洲经济区，Sakana正在努力使其黑盒数据路由架构符合GDPR法规。订阅套餐起价为每月20美元（标准版），企业按需付费计划可为生产工作负载提供更高优先级。

对于投资者而言，核心问题在于编排是传统算力支出的补充还是替代。如果Fugu的方法得到广泛采用，可能会压缩对最大GPU集群的需求——这将对英伟达和AMD构成不利因素。但如果市场将其视为现有基础设施之上的附加层，则可能扩大AI推理的总可寻址市场。下一个信号将来自企业采用率以及超大规模云服务商是否会相应调整定价。

本文仅供参考，不构成投资建议。