Mô hình tầm trung mới của Anthropic mang lại hiệu suất tác nhân gần bằng flagship với chi phí chỉ bằng một nửa.
Anthropic đã phát hành Claude Sonnet 5 vào thứ Ba, một mô hình AI tầm trung sánh ngang flagship Opus 4.8 về các chuẩn đánh giá công việc tri thức trong khi chi phí thấp hơn 60% cho mỗi token, làm gia tăng cuộc chiến giá cả trong lĩnh vực AI doanh nghiệp khi công ty đang chạy đua hướng tới đợt phát hành cổ phiếu lần đầu ra công chúng (IPO).
"Với Claude Sonnet 5, các tác nhân AI bám sát kế hoạch, tuân theo quy tắc của chúng tôi và thực hiện các thay đổi đa bước sạch sẽ, tất cả với chi phí hiệu quả," Sualeh Asif, đồng sáng lập Cursor, một trình soạn thảo mã nguồn hỗ trợ AI, cho biết.
Sonnet 5 đạt 63,2% trên SWE-bench Pro, một chuẩn đánh giá lập trình tác nhân, tăng từ 58,1% của Sonnet 4.6 và tiến sát mức 69,2% của Opus 4.8. Trên GDPval-AA v2, một bài đánh giá về công việc tri thức, nó đã vượt qua mô hình flagship — 1.618 so với 1.615 — trong khi giá khởi điểm từ 2 USD cho mỗi triệu token đầu vào và 10 USD cho mỗi triệu token đầu ra cho đến ngày 31 tháng 8, so với mức 5 USD và 25 USD của Opus 4.8. Mô hình sử dụng một bộ token hóa cập nhật có thể mở rộng đầu vào từ 1,0 đến 1,35 lần tùy thuộc vào nội dung, một thay đổi mà Anthropic cho biết được hiệu chỉnh để "gần như trung hòa về chi phí" trong giai đoạn giới thiệu.
Việc ra mắt diễn ra trong bối cảnh Anthropic đang lao nhanh về phía IPO dự kiến trong năm nay, sau khi đã nộp hồ sơ S-1 một cách bí mật vào ngày 1 tháng 6. Công ty báo cáo doanh thu thường niên (revenue run rate) đạt 47 tỷ USD sau vòng gọi vốn Series H trị giá 65 tỷ USD vào tháng 5 với mức định giá 965 tỷ USD, khiến khả năng của dòng Sonnet trong việc chuyển đổi sử dụng thử nghiệm thành doanh thu sản xuất quy mô lớn trở thành thước đo quan trọng đối với các nhà đầu tư thị trường đại chúng.
Năng lực tác nhân trở thành chuẩn mực mới
Việc Sonnet 5 tập trung vào khả năng thực thi tác vụ tự động — lập kế hoạch, sử dụng công cụ và hoàn thành quy trình làm việc đa bước — phản ánh một sự chuyển dịch rộng khắp trong ngành công nghiệp AI. OpenAI đã ra mắt GPT-5.6 Sol ở dạng xem trước vào tuần trước với các khả năng tác nhân phụ tương tự, và Gemini 3.5 Flash của Google, được phát hành vào tháng 5, được giới thiệu như một công cụ tác nhân yêu cầu đầu vào tối thiểu từ con người. Yếu tố khác biệt không còn là công ty nào có thể xây dựng các mô hình tác nhân, mà là công ty nào có thể cung cấp chúng đủ rẻ để triển khai sản xuất ở quy mô lớn.
Các đối tác truy cập sớm báo cáo rằng Sonnet 5 hoàn thành các tác vụ phức tạp mà các mô hình trước đây từng bị đình trệ. Daniel Shepard, một kỹ sư cấp cao tại Zapier, cho biết mô hình này đã hoàn thành một công việc tự động hóa hai phần — cập nhật bậc tài khoản Salesforce và gửi thông báo ra mắt đến các liên hệ doanh nghiệp — mà "từng bị kẹt giữa chừng" với các phiên bản trước. Trên Terminal-Bench 2.1, một đánh giá lập trình khác, Sonnet 5 đạt 80,4% so với mức 67,0% của Sonnet 4.6 và 82,7% của Opus 4.8.
Đánh đổi về an toàn và câu chuyện IPO
Anthropic cho biết Sonnet 5 có tỷ lệ ảo giác và xu nịnh thấp hơn so với phiên bản tiền nhiệm và có khả năng chống lại các cuộc tấn công chèn lệnh (prompt injection) tốt hơn. Tuy nhiên, trong một bài đánh giá phát triển khai thác lỗ hổng Firefox 147 được tạo ra với Mozilla, Sonnet 5 có tỷ lệ thành công một phần là 13,2%, tăng từ mức 8,8% của Sonnet 4.6, mặc dù không có mô hình nào tạo ra một exploit hoạt động được. Opus 4.8 đạt 68,8% và Mythos 5 bị hạn chế đạt 88,4%. Anthropic ra mắt Sonnet 5 với các biện pháp bảo vệ an ninh mạng thời gian thực được bật theo mặc định, tương tự như các biện pháp bảo vệ trên Opus 4.7 và 4.8.
Chiến lược định giá cũng phục vụ một mục đích kép cho câu chuyện IPO của Anthropic. Công ty cần chứng minh rằng các mô hình rẻ hơn của mình có thể thúc đẩy doanh thu API khối lượng lớn, định kỳ từ hàng nghìn khách hàng doanh nghiệp — không chỉ đơn thuần là sử dụng thử nghiệm từ các nhà phát triển. Gil Luria, trưởng bộ phận nghiên cứu công nghệ tại D.A. Davidson, nói với CNBC rằng mặc dù Anthropic "dường như đang dẫn đầu về các mô hình AI tiên tiến, nhưng phần lớn việc sử dụng hiện tại của họ là dùng thử và thử nghiệm và điều đó có thể không bền vững."
Chỉ ngày hôm qua, Thống đốc California Gavin Newsom đã công bố một quan hệ đối tác cung cấp Claude cho tất cả các cơ quan tiểu bang với mức giảm giá 50% kèm đào tạo lực lượng lao động miễn phí — một dạng áp dụng thể chế bền vững có thể tạo nền tảng cho doanh thu định kỳ. Anthropic phải đối mặt với sự cạnh tranh từ OpenAI, đã huy động được 122 tỷ USD vào tháng 3 với mức định giá 852 tỷ USD và đang theo đuổi IPO của riêng mình, cũng như Google, Meta và các startup AI châu Á được tài trợ tốt đang phát triển các khả năng tương tự.
Cổ phiếu của Anthropic chưa được giao dịch công khai. Hồ sơ S-1 của công ty, khi được công bố, sẽ phải đối mặt với sự giám sát về việc liệu dòng Sonnet — rẻ hơn nhưng khối lượng cao — hay dòng Opus — đắt đỏ nhưng biên lợi nhuận cao — sẽ dẫn dắt phần lớn lợi nhuận gộp. Như nhà phân tích Harrison Rolfes của PitchBook đã nói với CNBC, khung thời gian IPO năm 2026 "hoặc sẽ trở thành chu kỳ IPO có hệ quả nhất kể từ thời kỳ dot-com hoặc là bài học đắt giá nhất về câu chuyện so với các nguyên tắc cơ bản mà thị trường công khai từng dạy."
Bài viết này chỉ mang tính chất thông tin và không cấu thành lời khuyên đầu tư.