SenseTime mã nguồn mở mô hình SenseNova U1 2 tỷ tham số, loại bỏ kiến trúc VAE

Với việc phát hành SenseNova U1, công ty AI Trung Quốc SenseTime (00020.HK) đang thách thức kiến trúc nền tảng của hầu hết các mô hình tạo hình ảnh hiện đại. Công ty đã mã nguồn mở một bản xem trước mô hình 2 tỷ tham số, được xây dựng trên kiến trúc NEO-Unify hoạt động trực tiếp trên các pixel và loại bỏ bộ tự mã hóa biến phân (VAE) được sử dụng bởi các hệ thống từ Stable Diffusion đến Flux của Google. Cách tiếp cận này có thể giảm đáng kể chi phí suy luận và cải thiện độ trung thực của hình ảnh bằng cách tránh bước nén của VAE.

"Chúng tôi dự định tính phí các sản phẩm AI trong tương lai dựa trên kết quả giải quyết vấn đề thay vì tiêu thụ token", Chủ tịch SenseTime Xu Li cho biết vào tháng 3 năm 2026, một triết lý phù hợp với tiềm năng tiết kiệm chi phí của kiến trúc hiệu quả hơn này.

Mô hình xem trước 2 tỷ tham số đạt tỷ lệ tín hiệu trên nhiễu cực đại (PSNR) là 31,56 trong việc tái tạo hình ảnh, theo thẻ mô hình, một số điểm tiệm cận với PSNR 32,65 của mô hình Flux lớn hơn nhiều, nhưng không yêu cầu một VAE riêng biệt. Mô hình này được phát triển chung với S-Lab của Đại học Công nghệ Nanyang và được phát hành trên Hugging Face vào ngày 26 tháng 4. Một mô hình cơ sở 8 tỷ tham số cũng đã được xác nhận.

Đối với các nhà phát triển và người dùng doanh nghiệp, việc phát hành này báo hiệu một sự chuyển dịch hướng tới các ngăn xếp AI đơn giản hơn, hiệu quả hơn. Việc loại bỏ VAE giúp loại bỏ một nguồn chính gây ra các lỗi hình ảnh và một thành phần đòi hỏi tinh chỉnh đáng kể. Điều này có thể hạ thấp rào cản gia nhập để xây dựng các quy trình tạo hình ảnh chất lượng cao và giảm chi phí vận hành cho các hệ thống sản xuất, đe dọa trực tiếp đến các mô hình kinh doanh dựa trên API của các nhà cung cấp phương Tây như Midjourney và OpenAI.

Một con đường mới cho Pixel

Bộ tự mã hóa biến phân từ lâu đã là một sự cần thiết thực tế, không phải là một sự cần thiết cơ bản. Nó nén các hình ảnh độ phân giải cao thành một không gian tiềm ẩn nhỏ hơn, có thể quản lý được về mặt tính toán, nơi quá trình khuếch tán diễn ra. Tuy nhiên, sự nén này là mất dữ liệu, loại bỏ các chi tiết nhỏ và tạo ra các lỗi hình ảnh mà các nhà phát triển phải dành đáng kể thời gian kỹ thuật để xử lý. Kiến trúc NEO-Unify của SenseNova bỏ qua hoàn toàn bước này.

Bằng cách xử lý dữ liệu hình ảnh và ngôn ngữ có mối tương quan sâu sắc ngay từ đầu, mô hình học cách tạo trực tiếp trên các pixel. Chiến lược đào tạo hai giai đoạn cho phép mô hình tích hợp lý luận ngôn ngữ từ một mô hình ngôn ngữ lớn đã được đào tạo trước trong khi xây dựng nhận thức thị giác của nó từ đầu. Con đường thống nhất này cho sự hiểu biết và tạo ra giúp tránh các sự đánh đổi hiệu suất thường gây khó khăn cho việc đào tạo mô hình đa phương thức, nơi những lợi ích trong một lĩnh vực có thể làm giảm khả năng trong lĩnh vực khác.

Sự trỗi dậy tăng tốc của AI Trung Quốc

SenseNova U1 là mô hình mới nhất trong một loạt các mô hình trọng số mở có tính cạnh tranh đang nổi lên từ Trung Quốc, cùng với các bản phát hành đáng chú ý từ các công ty như DeepSeek, Qwen của Alibaba và dự án InternVL. Mô hình thử nghiệm kiến trúc nhanh chóng kết hợp với các bản phát hành mã nguồn mở này đang xây dựng một hệ sinh thái nhà phát triển mạnh mẽ, trình bày một sự thay thế có ý nghĩa cho các mô hình đóng, tập trung vào Mỹ từ OpenAI, Google và Anthropic, hoặc thậm chí các mô hình trọng số mở từ các công ty phương Tây như Meta.

Đối với những người mua doanh nghiệp, đặc biệt là ở các thị trường nơi chủ quyền dữ liệu và cơ sở hạ tầng địa phương là then chốt, những mô hình này đang ngày càng trở nên khả thi. SenseTime đã và đang làm sâu sắc thêm sự tích hợp của mình với các nhà cung cấp chip trong nước, một động thái giúp bảo vệ quy trình phát triển của họ khỏi các biện pháp kiểm soát xuất khẩu của Mỹ ảnh hưởng đến chuỗi cung ứng GPU của Nvidia. Sự kết hợp giữa đổi mới kiến trúc, chiến lược mã nguồn mở và khả năng phục hồi của chuỗi cung ứng giúp củng cố vị thế của lĩnh vực AI Trung Quốc trong thị trường toàn cầu đang bị phân mảnh.

Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên đầu tư.