인텔, 삼바노바, 푸콘이 3개 칩 아키텍처에 AI 추론을 분산하는 양산형 랙을 구축 중이다.
인텔, 삼바노바, 푸콘이 3개 칩 아키텍처에 AI 추론을 분산하는 양산형 랙을 구축 중이다.

인텔, 삼바노바, 푸콘이 3개 칩 아키텍처에 AI 추론을 분산하는 양산형 랙을 구축 중이다.
인텔은 월요일 타이베이에서 열린 Computex 2026에서 AI 추론의 프리필(pre-filling)과 디코딩(decoding) 단계를 서로 다른 프로세서에 분리하는 디커플드 추론 시스템을 시연했다. 이 시스템은 인텔의 벡터 코어 컴퓨트 데이터센터 플랫폼을 기반으로 제온 6 프로세서가 오케스트레이션을 담당하며, 디코딩에는 삼바노바의 SN40 RDU, 프리필에는 엔비디아의 블랙웰 GPU를 사용한다. 세계 최대 전자제품 제조사인 푸콘은 시스템 통합을 지원하고 전시장에서 양산형 랙을 선보였다.
"이 아키텍처는 모든 작업을 단일 GPU 파이프라인에 강제로 몰아넣지 않고, 추론의 각 단계를 독립적으로 최적화할 수 있게 해준다"고 인텔 관계자는 현장에서 밝혔다. 이 접근법은 현재 AI 배포의 구조적 비효율성을 겨냥한다. 사용자 프롬프트를 처리하는 계산 집약적 첫 단계인 프리필과, 토큰 단위로 응답을 생성하는 디코딩은 서로 다른 하드웨어 요구사항을 가지며, 단일 칩 유형만으로는 이를 효율적으로 충족할 수 없다.
디커플드 모델은 대규모 언어 모델을 프로덕션 환경에서 운영하는 기업들의 증가하는 고충을 해결한다. 프리필은 높은 메모리 대역폭과 행렬 연산 능력을 필요로 하며, 이 부분에서 엔비디아의 H100과 블랙웰 GPU가 강점을 보인다. 반면 디코딩은 지연 시간에 더 민감하며, 삼바노바 RDU(재구성 가능 데이터플로우 유닛)의 특화된 데이터플로우 아키텍처가 효과적이다. 작업량을 분할함으로써 인텔의 제온 6는 오케스트레이터 역할을 하며 각 단계를 최적의 프로세서로 라우팅한다.
인텔은 또한 제온 6+ 프로세서 라인업과 디커플드 추론을 위한 에이전트 클라우드 서비스를 발표하며, 엔비디아가 추론 및 학습용 실리콘 매출의 약 80%를 점유한 AI 데이터센터 시장 공략을 확대하고 있다. 2024년 펀딩 라운드 이후 50억 달러 이상의 가치를 인정받은 스타트업 삼바노바, 그리고 푸콘과의 파트너십은 인텔에 칩뿐만 아니라 완전한 랙을 납품할 수 있는 제조 및 통합 역량을 제공한다.
시점 또한 전략적이다. 엔비디아는 같은 날 자체 Computex 기조연설에서 첫 컨슈머 PC 프로세서인 RTX 스파크 슈퍼칩을 공개하고, 베라 루빈 데이터센터 플랫폼이 본격 양산에 돌입했음을 확인했다. 엔비디아의 데이터센터 매출은 최근 분기 356억 달러를 기록, 41억 달러에 그친 인텔의 데이터센터 및 AI 부문을 크게 압도했다. 그러나 단일 워크로드에 여러 칩 유형을 사용하는 이기종 추론에 대한 인텔의 베팅은 엔비디아의 CUDA 생태계에 대한 완전한 벤더 종속을 피하려는 기업들에게 차별화된 가치 제안을 제공한다.
투자자들에게 관건은 인텔이 이 아키텍처를 실제 매출로 전환할 수 있느냐다. 인텔의 데이터센터 및 AI 매출은 최근 분기 전년 대비 8% 감소했으며, AI 컴퓨팅 시장에서 엔비디아와 AMD에 빼앗긴 점유율을 회복하는 데 어려움을 겪고 있다. 푸콘과의 파트너십은 대량 생산으로 가는 길을 열어준다. 위탁생산 업체의 대규모 랙 통합, 테스트, 출하 능력은 기업들의 도입을 가속화할 수 있다. 인텔 주가는 턴어라운드에 대한 기대로 연초 대비 약 200% 상승했지만, 여전히 엔비디아의 35배 선행 주가수익비율 대비 할인된 수준에서 거래되고 있다.
본 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.