구글, 제미니 3.5 Pro 출시 7월로 연기…테스트 강화

구글의 제미니 3.5 Pro는 200만 개 토큰 컨텍스트 윈도우와 딥 씽크 추론 기능을 탑재하며, 조기 테스터들의 피드백을 반영해 7월에 출시될 예정이다. 이번 지연은 시장 변동성이 극심한 상황에서 오픈AI와 앤트로픽에 시장을 내줄 위험을 감수하는 결정이다.

구글이 제미니 3.5 Pro 출시를 7월로 연기하면서 오픈AI와 앤트로픽이 입지를 더욱 강화할 시간을 벌어주게 됐다. 이 모델의 200만 개 토큰 컨텍스트 윈도우와 딥 씽크 추론 모드는 경쟁 구도를 재편할 것으로 기대를 모았다. 구글은 당초 6월 출시를 목표로 했으며, 순다르 피차이 CEO는 5월 19일 I/O 컨퍼런스에서 개발자들에게 "다음 달"에 모델이 도착할 것이라고 말한 바 있다.

"추가로 확보된 몇 주 덕분에 조기 테스터들의 실제 사용 사례를 반영하고 플래시 3.5에 대한 피드백을 처리할 수 있게 됐다"고 이 사안에 정통한 관계자는 전했다. 플래시의 토큰 소비율에 대한 비판이 Pro 개발 사이클에 영향을 미쳤다는 설명이다.

제미니 3.5 Pro는 플래시의 100만 개 토큰 컨텍스트를 두 배로 늘려 200만 개로 확장했다. 이는 단일 호출로 약 1,500페이지 분량의 기술 문서 또는 전체 엔터프라이즈 코드베이스를 처리할 수 있는 용량이다. 이는 앤트로픽의 페이블 5(25만 6,000개 토큰)보다 8배, 오픈AI의 GPT-5 표준 티어(12만 8,000개 토큰)보다 15배 이상 많은 수치다. 딥 씽크 연쇄 추론(chain-of-thought) 방식은 페이블 5의 확장 추론 및 오픈AI의 o3와 동일한 기능 범주를 targeting 하지만, 사용량 기반 API 가격이 아닌 구글의 월 250달러 울트라 구독 서비스를 통해서만 제공될 예정이다. 멀티모달 입력은 출시 시 텍스트와 이미지를 지원하며, 비디오와 오디오는 추후 업데이트에서 추가될 것으로 예상된다.

이번 지연은 구글의 경쟁 포지셔닝에 비정상적으로 유리한 시점에 발생했다. 페이블 5는 6월 12일, 미국 정부의 수출통제 지침(앤트로픽 미토스 보안 사건과 관련) 이후 제한됐지만, 6월 21일 앤트로픽 안드로이드 앱에 다시 등장했다. 다만 API 및 웹 접근은 비정부 사용자로 제한된 상태다. 한편 오픈AI는 같은 주에 42개 주 법무장관 조사가 시작됐고, IPO 공시 요구사항으로 인해 기업 고객들의 제품 로드맵에 대한 불확실성이 가중되고 있다.

200만 개 토큰 컨텍스트가 가능하게 하는 것

컨텍스트 윈도우는 진정한 차별화 요소다. 대부분의 프로덕션 프런티어 모델은 12만 8,000개에서 25만 6,000개 토큰 범위에서 작동하므로, 개발자는 문서를 분할하고 관련 섹션을 순차적으로 검색하는 검색 증강 생성(RAG) 파이프라인을 구축해야 한다. 200만 개 토큰 모델은 많은 사용 사례에서 이러한 아키텍처를 제거한다: 전체 저장소 코드 분석, 50만 개 토큰을 초과하는 계약 포트폴리오에 걸친 법률 문서 검토, 현재 모델이 유지할 수 없는 다중 세션 엔터프라이즈 대화 상태 등이 가능해진다.

가격 영향은 상당하다. 제미니 3.1 Pro의 입력 토큰 100만 개당 2달러 요율을 적용하면, 200만 개 토큰 전체 호출 비용은 입력 비용만 4달러에 달한다. 단순 작업에는 비싸지만, 맞춤형 RAG 인프라를 유지하는 것에 비하면 혁신적으로 저렴하다. 구글은 아직 제미니 3.5 Pro의 가격을 발표하지 않았지만, 20만 개 토큰 이상에서의 컨텍스트 할증료 구조가 대규모 컨텍스트 사용 사례의 경제적 실현 가능성을 결정할 것이다.

딥 씽크와 구독 게이팅 문제

딥 씽크는 응답을 생성하기 전 모델의 사고 시간을 연장하여 수학, 논리 및 구조화된 추론 작업에서 더 나은 성능을 제공한다. 내부 데이터에 따르면 SWE-bench Verified에서 3.1 세대 대비 10~15포인트 향상된 결과를 보여주지만, 해당 수치는 외부 벤치마크에서 아직 검증되지 않았다.

확장된 추론 기능을 사용량 기반 API 가격이 아닌 월 250달러 구독 서비스에 고정하는 것은 추론 품질을 가장 중시하는 개발자 세그먼트에 마찰을 초래한다. 고정 좌석을 보유한 엔터프라이즈 고객은 비용을 감당할 수 있지만, 개인 개발자와 추론 집약적 애플리케이션을 구축하는 스타트업은 그렇지 못하다. 구글의 이전 제미니 모델 패턴은 구독 계층에서 기능을 출시한 후 나중에 API를 통해 제공하는 방식이었으며, 딥 씽크도 이 경로를 따를 가능성이 높다.

경쟁 구도와 투자자 시사점

구글, 오픈AI, 앤트로픽 간의 3파전은 그 어느 때보다 치열하다. 각 제공업체는 상당한 역량과 함께 상당한 제약 조건을 가지고 있다. 알파벳에게 제미니 3.5 Pro 출시는 회사가 AI 인프라에 약속한 연간 500억 달러 이상의 자본 지출을 수익화하는 데 핵심적인 역할을 한다. 학습 실행의 대부분을 지원하는 H100 및 B200 GPU를 공급하는 엔비디아는 어떤 모델 제공업체가 시장 점유율을 확보하든 혜택을 볼 것이다.

구글이 200만 개 토큰 컨텍스트를 곱연산 할증료가 아닌 고정 요금으로 책정한다면, 대규모 컨텍스트 애플리케이션의 비용 모델이 크게 변화한다. GA 발표와 함께 나올 벤치마크 수치보다 가격 페이지가 더 중요할 것이다. 프런티어 모델들은 성능이 충분히 근접해 있기 때문에, 2~3포인트의 벤치마크 차이보다 비용과 컨텍스트 크기가 대규모 채택을 결정하는 더 중요한 요소다.

본 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.