DeepSeek V4 削減 73% AI 成本，直接挑戰英偉達主導地位

中國初創公司 DeepSeek 的新 AI 架構有望以減少 73% 的計算資源運行百萬級 Token 模型，直接威脅當前 AI 硬件市場的成本結構。該公司聲稱，其全新的 V4 模型處理 100 萬 Token 上下文所需的計算能力僅為前代的 27%，內存占用僅為 10%。這一結構性轉變可能顯著降低開發者的成本，並加劇與英偉達和谷歌等老牌企業的競爭。

該公司在官方公告中表示：「從現在起，100 萬上下文將成為 DeepSeek 所有官方服務的標準配置。」此舉是對大上下文 AI 相關高昂成本的直接挑戰，英偉達首席執行官黃仁勳曾強調這是關鍵障礙。儘管 DeepSeek 的基準測試顯示其在通用知識方面仍落後於谷歌最先進的閉源模型，但其效率提升在 AI 軍備競賽中代表了巨大的新威脅。

V4 模型的效率源於一種新型的混合注意力機制架構。在 100 萬 Token 上下文中，單 Token 推理所需的計算負荷（以每秒浮點運算次數 FLOPs 衡量）僅為此前 V3.2 模型的 27%。作為內存關鍵瓶頸的 KV 緩存需求也降至前代版本的 10%。公司發佈了兩個版本：擁有 1.6 萬億參數的 V4-Pro 模型，以及較小的 V4-Flash 模型，兩者均在開源 MIT 許可下提供。

對於投資者而言，DeepSeek 的突破代表了對當前市場的潛在顛覆。通過設計一個對暴力計算能力依賴較少的模型，該公司為華為昇騰芯片等替代硬件創造了空間。這與英偉達首席執行官此前關於中國正在構建獨立 AI 棧的警告相吻合。據報導，在阿里巴巴和騰訊的支持下，DeepSeek 正尋求超過 200 億美元的估值。如果其成本優勢證明具有可擴展性並推動廣泛採用，可能會壓縮雲供應商和芯片製造商的利潤空間。

針對計算成本的結構性攻擊

DeepSeek V4 背後的核心創新是對注意力機制（Transformer 模型的計算核心）進行的雙管齊下式的重新設計。標準注意力機制要求每個 Token 與序列中的每個其他 Token 計算相關性得分，導致計算複雜度呈二次方增長，這是 100 萬 Token 上下文窗口商業化的主要障礙。

DeepSeek 的解決方案結合了壓縮稀疏注意力（CSA）和重壓縮注意力（HCA）。CSA 使用可訓練機制來學習哪些 Token 連接足夠重要以進行全量計算，從而動態創建稀疏結構而非計算所有內容。HCA 則通過壓縮 KV 緩存（推理期間必須保存在昂貴 GPU 顯存中的數據）來解決內存問題。這些創新加在一起，使 DeepSeek 在相同硬件上能支持的併發用戶數達到傳統架構的 3 至 4 倍。

基準測試揭示專業化威脅

儘管 DeepSeek V4-Pro 的效率是其主要特色，但其性能基準測試展現了一個專業化競爭者的形象。該模型在數學和編程方面表現卓越，在 Codeforces 基準測試中獲得 3206 分，超過了 OpenAI 和谷歌模型的公開分數。然而，在通用世界知識和高級推理測試中，它仍處於落後地位。在 SimpleQA-Verified 基準測試中，V4 得分為 57.9，遠低於谷歌 Gemini 3.1 Pro 的 75.6 分。

這表明 DeepSeek 正將其資源集中在特定的高價值能力上，力求在這些領域建立領先優勢，而非試圖在所有領域擊敗前沿模型。這種策略結合其開源和低成本路徑，使其在上線首周便登頂蘋果 App Store 下載榜，顯示出市場對昂貴的美國科技巨頭封閉模型的替代方案有著強烈渴求。針對非美國硬件優化的強力、高效模型的崛起，正是英偉達黃仁勳所描述的「國家的災難性後果」，且這一進程似乎比許多人預期的要快。投資者的關鍵問題在於，這種架構優勢轉化成市場份額和收入的速度有多快，以及英偉達等老牌巨頭能否調整路線圖以應對更高效、多極化 AI 硬件世界的威脅。

本文僅供參考，不構成投資建議。