通義千問3.5 Omni處理視頻比競爭對手快800%
阿里巴巴於2026年3月30日發布了通義千問3.5 Omni模型,這是其在短短六週內發布的第二個主要AI產品。該模型的核心創新在於其原生的「全模態」架構,使其能夠在一個單一處理過程中同時處理文字、圖像、音頻和視頻。通義千問透過對超過1億小時音視頻數據進行訓練,避免了競爭對手使用的較慢的多步驟工作流。在一項演示中,通義千問3.5 Omni在大約一分鐘內分析了一個YouTube視頻剪輯。相比之下,像ChatGPT 5.4這樣的非全模態系統,透過拼接視覺、音頻轉錄和文字識別等獨立工具來完成同一任務,需要九分鐘。
新模型在20種語言上擊敗ElevenLabs
通義千問3.5 Omni引入了幾項針對特定市場領域的新功能。其語音克隆功能允許模型從樣本中學習用戶的聲音,使其直接與ElevenLabs等專業平台競爭。在多語言語音穩定性基準測試中,通義千問3.5 Omni-Plus在20種不同語言上優於ElevenLabs和GPT-Audio。該模型的語音識別能力也大幅擴展,覆蓋了113種語言和方言,比上一版本的19種有所增加。此外,它現在集成了實時網頁搜索和一個新穎的「音視頻情感編碼」功能,使其能夠僅透過觀察任務的屏幕錄像來編寫功能代碼。
阿里巴巴加速產品發布,競爭對手專注於政策
阿里巴巴積極的產品發布時間表凸顯了全球AI市場的戰略分歧。當OpenAI和Anthropic等競爭對手公開專注於開發道德框架和治理文件(如「模型規範」和「Claude憲法」)時,阿里巴巴正在執行一項快速的、以產品為主導的戰略。透過在不到兩個月的時間內推出兩個前沿模型,該公司優先部署實際功能和性能提升以搶佔市場份額。這種做法與一些美國主要競爭對手主導的更具哲學性和政策性的討論形成對比,預示著在AI霸權競爭中一條不同的道路。