ByteDance ra mắt 5 mô hình AI, tạo video 30 giây với chi phí thấp hơn 80%

ByteDance đã phá vỡ rào cản 30 giây trong lĩnh vực tạo video AI và đạt ngang bằng Claude Opus 4.7 về khả năng lập trình với chỉ 1/5 chi phí, khi ra mắt 5 mô hình mới tại hội nghị FORCE thường niên vào ngày 23 tháng 6.

"Seedance 2.5 là mô hình tạo video đầu tiên có thể sản xuất các clip 30 giây gốc từ một lời nhắc duy nhất, với các thay đổi cảnh và chuyển nhịp được tích hợp sẵn," Tan Đại, Chủ tịch Volcano Engine, mảng kinh doanh điện toán đám mây của ByteDance, phát biểu tại hội nghị ở Bắc Kinh. "Mô hình có thể chấp nhận tới 50 đầu vào tham chiếu đa phương thức cùng lúc — bao gồm hình ảnh, âm thanh, mô hình 3D — và hỗ trợ chỉnh sửa cục bộ sau khi tạo mà không làm giảm tính nhất quán về hình ảnh."

Trọng tâm của lần ra mắt này, Seedance 2.5, tạo ra các đoạn video đơn lẻ dài tới 30 giây ở độ phân giải 4K gốc với độ sâu màu 10-bit, một bước nhảy vọt so với giới hạn 15 giây vốn đã kìm hãm hầu hết các công cụ video AI. Mô hình này cũng giới thiệu tính năng tiền hình dung mô hình trắng 3D — một tính năng được lấy cảm hứng từ yêu cầu của một đạo diễn phim trong quá trình hợp tác với ByteDance, theo CEO Lương Nhữ Bá. Người dùng có thể chỉnh sửa các yếu tố riêng lẻ như nền hoặc sản phẩm sau khi tạo mà không cần tạo lại toàn bộ clip, một khả năng mà ByteDance đã chứng minh bằng cách thay đổi màu son môi trong một quảng cáo thương mại mà không làm thay đổi cảnh quay. Mô hình dự kiến ra mắt vào đầu tháng 7.

Cuộc cạnh tranh không chỉ dừng lại ở video. Doubao 2.1 Pro, mô hình ngôn ngữ chủ lực của ByteDance, đạt 59,8 điểm trên chuẩn đánh giá suy luận khoa học SciCode, vượt qua cả Claude Opus 4.7 và GPT-5.5, đồng thời đạt 47 điểm về khả năng tạo mã cấp kho lưu trữ NL2Repo — vượt trội so với GPT-5.5 và Gemini 3.1. Với mức giá 6 NDT (0,83 USD) cho mỗi triệu token đầu vào và 30 NDT (4,14 USD) cho mỗi triệu token đầu ra, đây là mức giảm chi phí khoảng 80% so với dòng Claude Opus của Anthropic, theo Volcano Engine. Một biến thể turbo có giá bằng một nửa phiên bản Pro nhắm vào các khối lượng công việc doanh nghiệp tần suất cao.

Cuộc tấn công AI toàn diện

ByteDance không dừng lại ở văn bản và video. Công ty cũng giới thiệu trước Seedream 5.0 Pro dành cho tạo hình ảnh, bổ sung tính năng chỉnh sửa tương tác — người dùng có thể vẽ mũi tên hoặc khoanh vùng để sửa đổi các yếu tố cụ thể — và phân tách đa lớp giúp tách đệ quy các lớp hình ảnh đồng thời tự động điền nền. Mô hình hỗ trợ bố cục văn bản mật độ cao bằng hơn 10 ngôn ngữ, bao gồm tiếng Anh, tiếng Tây Ban Nha, tiếng Ả Rập và tiếng Nhật, với kiểu chữ thích ứng văn hóa.

Về mảng âm thanh, Mô hình Tạo Âm thanh Doubao 1.0 có thể tạo nhạc nền điện ảnh hoàn chỉnh chỉ từ văn bản, tự động suy luận đặc điểm giọng nói nhân vật, cách truyền tải cảm xúc, giọng địa phương, không gian nền và hiệu ứng âm thanh trong một lần xử lý duy nhất. Một bản demo cho thấy một phân cảnh võ thuật dài gần một phút với giọng nhân vật nhất quán, tiếng mưa rơi và âm thanh va chạm vũ khí — tất cả đều do mô hình tạo ra mà không cần ghép thủ công.

Seedance 2.0, mô hình tiền nhiệm được phát hành vào tháng 2, đã được nâng cấp lên độ phân giải 4K gốc như một phần của thông báo.

Đà phát triển thương mại và áp dụng doanh nghiệp

Mảng kinh doanh điện toán đám mây Volcano Engine hiện chiếm 49,5% thị trường điện toán đám mây công cộng Trung Quốc, ông Tan cho biết. Lượng gọi token hàng ngày trên toàn bộ dòng mô hình Doubao của ByteDance đã đạt 180 nghìn tỷ, tăng gấp 1.500 lần so với hai năm trước và tăng gấp 10 lần chỉ trong năm qua. Số lượng khách hàng doanh nghiệp chi tiêu hơn 1 nghìn tỷ token hàng năm đã tăng gấp đôi lên 200 kể từ tháng 12.

ByteDance cũng ra mắt nền tảng thương mại hóa bản quyền AI, với nhà làm phim Hồng Kông Stephen Chou là đối tác đầu tiên. Người dùng có thể phối lại các clip từ các tác phẩm kinh điển của Chou bao gồm "Tinh Võ Môn" và "CJ7" bằng cách sử dụng các mẫu chính thức trên Douyin, Jimeng và Jianying — tạo ra hơn 10.000 tác phẩm trong ngày đầu tiên, theo ông Tan.

Việc áp dụng doanh nghiệp trải rộng trên nhiều ngành. Tesla đã tích hợp Doubao để điều khiển xe bằng giọng nói trên toàn bộ dòng sản phẩm, sử dụng mô hình giọng nói thời gian thực của ByteDance. Mẫu xe CLA điện mới của Mercedes-Benz cũng nhúng Doubao để tương tác ngôn ngữ tự nhiên và nhận diện cảm xúc. Trong lĩnh vực dịch vụ tài chính, CICC đã xây dựng một agent cố vấn đầu tư kỹ thuật số trên nền tảng HiAgent của ByteDance, tổng hợp nghiên cứu từ hơn 300 nhà phân tích. China Mobile đã hợp tác ra mắt dịch vụ mô hình bảo mật dành cho khách hàng chính phủ và tài chính sử dụng cơ sở hạ tầng tính toán nội địa.

Ý nghĩa đối với nhà đầu tư

Việc ByteDance ra mắt bộ AI toàn diện — bao gồm văn bản, video, hình ảnh và âm thanh — báo hiệu một cuộc chiến về giá cả và năng lực gây áp lực lên cả các nhà lãnh đạo AI phương Tây lẫn đối thủ Trung Quốc. Khả năng lập trình ngang bằng với Claude Opus 4.7 của Doubao 2.1 Pro với chi phí thấp hơn 80% đang bóp nghẹt biên lợi nhuận của các nhà cung cấp mô hình cao cấp, trong khi khả năng tạo 30 giây của Seedance 2.5 vượt qua OpenAI Sora và các đối thủ cạnh tranh khác vẫn bị giới hạn ở mức 15 đến 20 giây. Thị phần điện toán đám mây công cộng 49,5% và 180 nghìn tỷ lượt gọi token hàng ngày cho thấy việc áp dụng doanh nghiệp đang tăng tốc nhanh hơn hầu hết các nhà phân tích dự đoán. Đối với các nhà đầu tư theo dõi quá trình xây dựng hạ tầng AI, khả năng của ByteDance trong việc kết hợp các mô hình trên nhiều phương thức ở mức giá cạnh tranh — cùng với khả năng phân phối thông qua Douyin, Jimeng và Jianying — tạo ra một đối thủ cạnh tranh tích hợp theo chiều dọc có quy mô ngang bằng với bất kỳ nền tảng AI phương Tây nào.

Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên đầu tư.