通义千问3.5 Omni处理视频比竞争对手快800%
阿里巴巴于2026年3月30日发布了通义千问3.5 Omni模型,这是其在短短六周内发布的第二个主要AI产品。该模型的核心创新在于其原生的“全模态”架构,使其能够在一个单一处理过程中同时处理文本、图像、音频和视频。通义千问通过对超过1亿小时音视频数据进行训练,避免了竞争对手使用的较慢的多步骤工作流。在一项演示中,通义千问3.5 Omni在大约一分钟内分析了一个YouTube视频剪辑。相比之下,像ChatGPT 5.4这样的非全模态系统,通过拼接视觉、音频转录和文本识别等独立工具来完成同一任务,需要九分钟。
新模型在20种语言上击败ElevenLabs
通义千问3.5 Omni引入了几项针对特定市场领域的新功能。其语音克隆功能允许模型从样本中学习用户的声音,使其直接与ElevenLabs等专业平台竞争。在多语言语音稳定性基准测试中,通义千问3.5 Omni-Plus在20种不同语言上优于ElevenLabs和GPT-Audio。该模型的语音识别能力也大幅扩展,覆盖了113种语言和方言,比上一版本的19种有所增加。此外,它现在集成了实时网页搜索和一个新颖的“音视频情感编码”功能,使其能够仅通过观察任务的屏幕录像来编写功能代码。
阿里巴巴加速产品发布,竞争对手专注于政策
阿里巴巴积极的产品发布时间表凸显了全球AI市场的战略分歧。当OpenAI和Anthropic等竞争对手公开专注于开发道德框架和治理文件(如“模型规范”和“Claude宪法”)时,阿里巴巴正在执行一项快速的、以产品为主导的战略。通过在不到两个月的时间内推出两个前沿模型,该公司优先部署实际功能和性能提升以抢占市场份额。这种做法与一些美国主要竞争对手主导的更具哲学性和政策性的讨论形成对比,预示着在AI霸权竞争中一条不同的道路。