中美前沿AI模型的差距已从数年缩短至数月,智谱和深度求索的开源权重系统在基准测试中已逼近最佳闭源模型。
中美前沿AI模型的差距已从数年缩短至数月,智谱和深度求索的开源权重系统在基准测试中已逼近最佳闭源模型。

中美前沿AI模型的差距已从数年缩短至数月,智谱和深度求索的开源权重系统在基准测试中已逼近最佳闭源模型。
埃隆·马斯克预测,中国大语言模型可能在2027年第一季度达到与Anthropic的Fable同等水平,以此回应一条关于智谱AI的GLM-5.2缩小差距的社交媒体帖子。Google DeepMind首席执行官戴密斯·哈萨比斯此前也曾表示,据中国官方媒体引述,中国AI模型可能"仅落后海外同行数月"。
"改进速度令人瞩目,"追踪AI基础设施的Edgen分析师Rachel Kim表示。"中国实验室正在将过去需要数年才能完成的事情压缩到几个季度内,而且是在国产芯片上实现的。"
智谱AI于6月16日以MIT许可证发布GLM-5.2,使其可免费用于商业用途。该模型在Terminal-Bench 2.1上得分为81.0,高于GLM-5.1的62.0——单次小版本发布就实现了31%的提升。在SWE-bench Pro上,得分为62.1,略超GPT-5.5,并在FrontierSWE上仅落后Anthropic的Opus 4.8一个百分点。该模型拥有100万token的上下文窗口,每token成本约为美国领先闭源模型的六分之一。
深度求索的V4-Pro是一个1.6万亿参数的混合专家模型,每次token激活490亿个参数,在SWE-bench Verified上取得了80.6%的成绩。每百万输出token约87美分的价格,约为前沿模型定价的三十分之一。权重为开源。阿里巴巴的Qwen系列在1月份于Hugging Face上突破10亿次下载,超越Meta的Llama成为全球下载量最大的开源模型系列。
三次发布,四个月时间
中国模型发布的节奏展示了这一速度。GLM-5于2月发布。GLM-5.1于3月跟进,其内部编码得分从35.4提升至45.3——提升了28%。GLM-5.2于6月发布,Terminal-Bench结果再次几乎翻倍。每一步均在国产芯片上训练,有迹象表明整个技术栈现已完全摆脱英伟达。
2023年,开源模型落后闭源前沿两年。2024年,差距缩小至一年。2025年,六个月。如今,在工程工作相关的基准测试上,差距已以周计算。
价值流向何方
随着模型权重接近商品化定价,经济重心转向推理和基础设施。根据行业估计,推理现在约占所有AI计算资源的三分之二,而2023年这一比例为三分之一。Nebius Group报告称,一家客户在其平台上使用开源模型将推理成本降低了26倍。Cloudflare现从其边缘网络提供超过70个模型。
微软首席执行官萨提亚·纳德拉在6月14日的一篇文章中描述了这一转变,认为企业必须同时建设"人力资本"和"代币资本"——即自己拥有而非租用的AI能力。他对员工的警告是:避免在廉价专用模型足以完成任务时,将每项工作都经由昂贵的前沿模型处理。
对于投资者而言,差距缩小引发了关于Michael Burry所指出的数据中心行业1760亿美元潜在低估折旧的问题。如果前沿级模型能在售价4700美元的DGX Spark桌面机——英伟达的Grace Blackwell机器,配备128GB统一内存——上运行,那么支撑五年折旧周期的集中推理需求曲线增长速度可能低于表格中的假设。计划于2026年建设的美国数据中心中,约有一半已面临延迟或取消,而预测市场认为在2027年之前联邦政府暂停大型数据中心激励措施的概率约为三分之一。
本文仅供信息参考,不构成投资建议。