通義千問3.5 Omni、動画処理速度が競合他社より800%高速化
アリババは2026年3月30日に通義千問3.5 Omniモデルを発表しました。これは、わずか6週間で2度目となる主要なAIリリースです。このモデルの主要な革新は、テキスト、画像、音声、動画を単一のプロセス内で同時に処理できるネイティブな「オムニモーダル」アーキテクチャにあります。1億時間以上の視聴覚データで訓練された通義千問は、競合他社が使用する遅い多段階のワークフローを回避します。デモンストレーションでは、通義千問3.5 OmniはYouTubeの動画クリップを約1分で分析しました。対照的に、ChatGPT 5.4のような非オムニモーダルシステムは、視覚、音声転写、テキスト認識のための個別のツールを組み合わせて同じタスクを完了するのに9分を要しました。
新モデル、20言語でElevenLabsを上回る
通義千問3.5 Omniは、特定の市場セグメントをターゲットとしたいくつかの新機能を導入しています。音声クローン機能により、モデルはサンプルからユーザーの音声を模倣でき、ElevenLabsのような専門プラットフォームと直接競合します。多言語音声安定性ベンチマークにおいて、通義千問3.5 Omni-Plusは20の異なる言語でElevenLabsとGPT-Audioを上回る性能を示しました。モデルの音声認識能力も、以前のバージョンの19言語から113言語と方言に大幅に拡張されました。さらに、リアルタイムのウェブ検索と、タスクのスクリーン録画を観察するだけで機能コードを記述できる斬新な「オーディオ・ビジュアルバイブコーディング」機能が統合されました。
アリババは製品リリースを加速、競合他社は政策に注力
アリババの積極的な製品リリーススケジュールは、世界のAI市場における戦略的な分岐点を浮き彫りにしています。OpenAIやAnthropicのような競合他社が「モデル仕様」や「クロード憲法」といった倫理的枠組みやガバナンス文書の開発に公に注力する一方で、アリババは迅速な製品主導型戦略を実行しています。2か月足らずで2つのフロンティアモデルを投入することで、同社は市場シェアを獲得するために具体的な機能と性能向上を優先しています。このアプローチは、米国の一部の主要競合他社で議論を支配しているより哲学的で政策主導型の議論とは対照的であり、AI覇権争いにおいて異なる道を示します。