Giao thức lấy mẫu mới của Offchain Labs giúp rút ngắn thời gian xác minh suy luận AI từ 15 phút xuống mili giây, giải quyết khoảng trống niềm tin khiến người dùng không thể xác nhận mô hình nào thực sự chạy trên GPU.
Giao thức lấy mẫu mới của Offchain Labs giúp rút ngắn thời gian xác minh suy luận AI từ 15 phút xuống mili giây, giải quyết khoảng trống niềm tin khiến người dùng không thể xác nhận mô hình nào thực sự chạy trên GPU.

Nhà phát triển Arbitrum là Offchain Labs đã công bố một bài nghiên cứu vào ngày 3 tháng 6, đề xuất phương pháp dựa trên lấy mẫu giúp giảm thời gian tạo bằng chứng suy luận AI từ khoảng 15 phút xuống còn mili giây.
"Mô hình định giá theo từng token tạo ra động cơ kinh tế cụ thể cho hành vi gian lận — việc phục vụ một mô hình 7 tỷ tham số có chi phí thấp hơn so với mô hình 70 tỷ tham số, và chạy suy luận định lượng hóa rẻ hơn so với suy luận độ chính xác đầy đủ," các tác giả của bài nghiên cứu tại Offchain Labs đã viết trong nghiên cứu tháng 3 năm 2026 có tựa đề Hướng tới AI có thể xác minh với Bằng chứng mật mã nhẹ cho Suy luận.
Các bằng chứng mật mã hiện có, thuộc loại được sử dụng bởi các zero-knowledge rollup, có thể chứng minh tính toán chính xác mà không cần thực thi lại, nhưng các sơ đồ như zkLLM yêu cầu khoảng 15 phút để tạo một bằng chứng suy luận duy nhất cho mô hình 13 tỷ tham số — một khung thời gian không tương thích với các API phải phản hồi trong vòng chưa đầy một giây. Đề xuất của Offchain Labs từ bỏ việc thực thi lại toàn bộ để chuyển sang lấy mẫu ngẫu nhiên: máy chủ cam kết một dấu vân tay kỹ thuật số của trọng số mô hình và các giá trị nội bộ, sau đó máy khách chọn một đường dẫn ngẫu nhiên hướng tới đầu ra và yêu cầu máy chủ chỉ tiết lộ các giá trị dọc theo đường dẫn đó. Nếu máy chủ thay thế bằng một mô hình nhỏ hơn, các giá trị sẽ không nhất quán và việc xác minh thất bại, với xác suất bị phát hiện tích lũy qua các truy vấn lặp lại.
Giao thức này mở rộng cùng một logic giải quyết tranh chấp bảo vệ Arbitrum One — các optimistic rollup chỉ thực thi lại bước bị tranh chấp thay vì mọi phép tính — sang suy luận mạng nơ-ron, sử dụng quy trình chia đôi thu hẹp sự bất đồng giữa hai máy chủ trong một số vòng logarit. Đối với thị trường mới nổi của các tác nhân tự trị và các ngành được quản lý yêu cầu quản trị mô hình, sự khác biệt giữa một tuyên bố minh bạch và một tuyên bố có thể xác minh đang bắt đầu mang lại những hệ quả trực tiếp.
Các nhà nghiên cứu Stanford đã ghi nhận rằng hành vi của GPT-3.5 và GPT-4 đã thay đổi theo những cách có thể đo lường được trong khoảng thời gian từ tháng 3 đến tháng 6 năm 2023 trên cùng một tập hợp các tác vụ đánh giá, theo bài nghiên cứu, nhưng hợp đồng API hiện tại không cung cấp cơ chế nào để phát hiện sự khác biệt đó. Động cơ kinh tế cho việc thay thế mô hình tăng theo khối lượng: một nhà cung cấp có thể chuyển hướng một phần nhỏ các truy vấn sang một mô hình nhỏ hơn hoặc đã được định lượng hóa trong khi vẫn tính phí của mô hình lớn hơn.
Mối liên hệ với Arbitrum là rõ ràng trong bài nghiên cứu. Các optimistic rollup hoạt động dựa trên cùng một nguyên lý — thực thi lại mọi bước của một phép tính dài trên mọi máy là tốn kém, trong khi lấy mẫu bước bị tranh chấp là rẻ. Giao thức được đề xuất mở rộng logic đó sang các giá trị mạng nơ-ron, sử dụng cùng cấu trúc giải quyết tranh chấp dựa trên chia đôi bảo vệ Arbitrum One.
Đối với các ngành được quản lý, các nhóm quản trị mô hình và thị trường mới nổi của các tác nhân tự trị, giao thức này không yêu cầu các nhà phát triển phải sửa đổi stack hiện có của họ; nó chỉ yêu cầu ai đó trong hệ thống — dù là nhà cung cấp, kiểm toán viên hay nền tảng — tạo ra một tuyên bố có thể xác minh.
Bài viết này chỉ mang tính chất thông tin và không cấu thành lời khuyên đầu tư.