Tencent Hunyuan cắt giảm 75% chi phí điện toán AI với thuật toán chú ý thưa thớt mới

Nhóm AI Hunyuan của Tencent Holdings Ltd. đã phát triển một thuật toán chú ý thưa thớt đạt độ chính xác gần như chú ý dày đặc với mức tiêu thụ năng lượng tính toán thấp hơn 75%, có khả năng cắt giảm chi phí suy luận cho các tác vụ suy luận ngữ cảnh dài tới hàng triệu đô la mỗi năm.

"Stem xem xét lại độ thưa thớt ở cấp độ khối từ góc độ luồng thông tin nhân quả, một khía cạnh mà các phương pháp trước đây đã bỏ qua," nhóm nghiên cứu Tencent Hunyuan cho biết trong một bài báo kỹ thuật mô tả chi tiết về thuật toán.

Thuật toán giới thiệu hai cải tiến: Token Position Decay, giúp định trọng số token dựa trên khoảng cách của chúng trong chuỗi, và Output-Aware Metric, giúp chọn các khối chú ý dựa trên mức độ đóng góp của chúng vào đầu ra cuối cùng. Ở cấp độ toán tử, các toán tử HPC Stem+BSA mã nguồn mở đã giảm độ trễ token đầu tiên xuống 3,7 lần trong cửa sổ ngữ cảnh 128.000 token, nhóm nghiên cứu báo cáo.

Tencent, công ty đang giao dịch ở mức khoảng 20 lần thu nhập dự phóng, đã đầu tư mạnh vào mô hình Hunyuan để cạnh tranh với Qwen của Alibaba Group Holding Ltd., Ernie của Baidu Inc. và DeepSeek. Chi phí suy luận thấp hơn có thể cải thiện biên lợi nhuận cho mảng kinh doanh đám mây của Tencent và cho phép các tính năng AI giá cả phải chăng hơn trên khắp WeChat, nền tảng có hơn 1,3 tỷ người dùng hoạt động hàng tháng.

Cạnh tranh ngày càng gay gắt

Lợi thế về hiệu suất này xuất hiện trong bối cảnh cuộc đua mô hình AI tại Trung Quốc bước vào giai đoạn cắt giảm chi phí. Mô hình V3 của DeepSeek, ra mắt vào cuối năm 2024, đã chứng minh rằng hiệu suất cạnh tranh là khả thi với chi phí đào tạo chỉ bằng một phần nhỏ so với các mô hình tiên tiến của Mỹ. Thuật toán Stem của Tencent nhắm vào khía cạnh suy luận – chi phí định kỳ khi vận hành mô hình trong sản xuất – vốn chiếm 60% đến 80% tổng chi phí khối lượng công việc AI cho các ứng dụng đã triển khai, theo ước tính của ngành.

Nhóm Qwen của Alibaba cũng đã công bố nghiên cứu về chú ý thưa thớt, trong khi Baidu đã tối ưu hóa mô hình Ernie cho các tác vụ ngữ cảnh dài. Quyết định mã nguồn mở các toán tử HPC Stem+BSA của Tencent tạo nên sự khác biệt, cho phép các nhà phát triển tích hợp các lợi thế về hiệu suất mà không cần giấy phép độc quyền.

Giảm độ trễ 3,7 lần có ý nghĩa gì?

Việc giảm độ trễ token đầu tiên 3,7 lần trong bối cảnh 128.000 token là một bước tiến đáng kể cho các ứng dụng thời gian thực. Đối với một tác nhân AI WeChat xử lý một cuộc hội thoại dài với dịch vụ khách hàng, điều đó đồng nghĩa với việc phản hồi bắt đầu trong vài giây thay vì hàng chục giây. Các nhà phân tích của Citi cho biết trong một báo cáo rằng TongchengTravel Holdings Ltd. có thể được hưởng lợi từ sự hợp tác chặt chẽ tiềm năng với WeChat AI Agent của Tencent, đồng thời nhắc lại khuyến nghị mua đối với cổ phiếu này.

Cửa sổ ngữ cảnh 128.000 token tương đương với những gì các mô hình hàng đầu cung cấp — GPT-4 Turbo của OpenAI hỗ trợ 128.000 token, trong khi Claude 3.5 của Anthropic hỗ trợ 200.000 token. Thuật toán của Tencent có thể mang lại cho Hunyuan lợi thế về chi phí trong phân khúc ngữ cảnh dài, nơi chi phí suy luận tăng theo hàm bậc hai với độ dài chuỗi theo cơ chế chú ý dày đặc tiêu chuẩn.

Ý nghĩa đầu tư

Đối với Tencent, việc tiết kiệm chi phí sẽ được nhân lên trên toàn bộ hệ thống AI của công ty. Công ty báo cáo doanh thu đám mây đạt 53,3 tỷ nhân dân tệ (7,4 tỷ USD) trong năm tài chính 2024, với khối lượng công việc liên quan đến AI là một thành phần đang tăng trưởng. Mỗi điểm phần trăm giảm trong chi phí suy luận sẽ cải thiện biên lợi nhuận trong một mảng kinh doanh mà Tencent cạnh tranh với Alibaba Cloud và Huawei Cloud về giá cả.

Chiến lược mã nguồn mở cũng mang logic chiến lược. Bằng cách phát hành công khai các toán tử HPC, Tencent nhận được sự đóng góp từ cộng đồng và sự chấp nhận từ hệ sinh thái — các nhà phát triển xây dựng trên cơ sở hạ tầng tối ưu hóa Stem có nhiều khả năng triển khai các mô hình Hunyuan hơn. Điều này tương tự với cách tiếp cận của Meta Platforms Inc. với dòng mô hình Llama, vốn đã trở thành dòng AI mã nguồn mở được áp dụng rộng rãi nhất.

Bài viết này chỉ mang tính chất tham khảo và không cấu thành lời khuyên đầu tư.