테더의 AI 부문이 Google Research 논문을 실제 프로덕션 코드로 전환, 장기 세션 중 대규모 언어 모델이 필요로 하는 메모리를 최대 5배까지 줄였다.
테더의 AI 부문이 Google Research 논문을 실제 프로덕션 코드로 전환, 장기 세션 중 대규모 언어 모델이 필요로 하는 메모리를 최대 5배까지 줄였다.

테더의 AI 연구 그룹은 월요일 Google Research의 알고리즘인 TurboQuant의 오픈소스 구현체를 공개했다. 이 알고리즘은 트랜스포머 모델이 컨텍스트를 추적하는 데 사용하는 작업 메모리인 키-밸리(KV) 캐시를 재학습이나 미세 조정 없이 최대 5배까지 압축하며, 모든 작업을 클라우드 데이터센터를 통해 처리하는 대신 노트북, 스마트폰, 엣지 디바이스에서도 강력한 AI를 실행할 수 있게 해준다.
"긴 컨텍스트 AI가 가장 큰 데이터센터 내에서만 작동한다면, AI는 가장 많은 하드웨어를 소유한 자에 의해 형성될 것입니다,"라고 테더의 최고경영자 파올로 아르도이노는 성명을 통해 밝혔다. "TurboQuant는 메모리를 더 이상 장벽으로 만들지 않음으로써 로컬 AI가 할 수 있는 일을 변화시킵니다."
KV 캐시는 긴 AI 세션을 클라우드로 강제하는 병목 지점이다. 약 262,000개의 토큰 — 수 시간의 대화 또는 수백 페이지 분량의 텍스트에 해당 — 에서 40억 개 파라미터 모델의 KV 캐시는 자체적으로 약 8GB의 메모리를 소비한다. 해당 길이의 동시 세션 4개는 모델 가중치 자체를 고려하지 않고도 캐시를 32GB 이상으로 밀어올린다. TurboQuant는 이 공간을 세션당 약 1.6GB, 4개 세션 기준 6.4GB로 압축하여 16GB~32GB 통합 메모리를 갖춘 소비자용 하드웨어에서도 전체를 실행 가능한 수준으로 끌어내린다.
이번 릴리스는 QVAC SDK 0.12.0의 일부로, 테더의 분산형 AI를 위한 광범위한 플랫폼으로서 동일한 업데이트에서 텍스트-투-비디오 생성 및 로봇 제어 기능도 추가되었다. SDK에는 완전한 양자화 파이프라인, 일반적인 추론 프레임워크용 어댑터, 문서, 워크로드에 맞춤화된 배포 프로필이 포함되어 있다. 개발자는 TurboQuant를 처음부터 시작할 필요 없이 기존 모델에 적용할 수 있으며, 재학습이나 미세 조정이 필요하지 않다.
AI 스택에서 메모리가 중요한 이유
메모리 제약은 AI 워크로드가 하이퍼스케일 데이터센터에 집중되도록 만든 구조적 장벽 중 하나였다. KV 캐시만으로 16GB의 작업 메모리가 필요한 모델은 MacBook Air나 중급형 안드로이드 폰에서 실행될 수 없다. 이를 3.2GB로 줄이면 배포 방식이 완전히 달라지며, 수백 페이지 분량의 문서를 처리하고 전체 프로젝트 컨텍스트를 유지하며 개인 데이터를 로컬에서 처리할 수 있는 온디바이스 어시스턴트를 위한 길이 열린다.
테더의 구현체는 PolarQuant 및 Quantized Johnson-Lindenstrauss를 포함하여 회사가 QVAC에 축적한 여러 이전 압축 기술을 기반으로 구축되었다. 각각은 효율성 문제의 다른 부분을 대상으로 한다. TurboQuant는 3월 24일 발표된 Google Research 논문을 적용한 최신 계층이다.
이번 오픈소스 릴리스는 QVAC 생태계를 확장하고 테더의 플랫폼을 분산형 AI를 위한 기본 툴킷으로 자리매김하기 위한 전략적 움직임이다. 모든 개발자는 코드를 가져와 즉시 자신의 추론 파이프라인에 통합할 수 있다. 이는 테더를 llama.cpp 및 Ollama와 같은 기존 로컬 AI 프레임워크는 물론, 자사 데이터센터를 통해 추론을 라우팅하는 비즈니스 모델에 의존하는 클라우드 제공업체와 직접적인 경쟁 구도에 놓이게 한다.
투자자에게 이것이 의미하는 바
1400억 달러 규모의 USDT 스테이블코인 발행사로 가장 잘 알려진 테더는 AI 인프라로 공격적으로 확장해 왔다. 회사의 핵심 논지는 AI의 다음 단계는 원시 컴퓨팅 규모가 아닌 소프트웨어 효율성과 이식성에 의해 정의될 것이라는 점이다. TurboQuant의 5배 압축 주장이 다양한 모델 아키텍처와 컨텍스트 길이에서 유효하다면 — 독립적인 벤치마크는 아직 발표되지 않음 — 추론 워크로드의 중앙 집중식 클라우드 서비스에서 로컬 디바이스로의 전환을 가속화하여 클라우드 GPU 제공업체의 수익 성장을 압박하는 동시에 엣지 AI 하드웨어의 시장을 확장할 수 있다.
이 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.