
추론 시대, AI 칩 스타트업의 두 번째 기회
#The Register가 5월 3일 보도한 분석 기사에서 "추론(inference) 워크로드의 이질성이 GPU 단일 지배 구도를 흔들고 있다"고 짚었다. 핵심 사례는 셋. NVIDIA가 12월 Groq을 200억 달러에 인수하며 SRAM 중심 LPU 아키텍처를 확보했고, AWS는 자체 Trainium(prefill) + Cerebras 웨이퍼 스케일(decode) 의 분리형 컴퓨트 플랫폼을 공개했다. Intel도 GPU(prefill) + SambaNova RDU(decode) 레퍼런스 디자인을 발표하며 가세했다. 영국 광컴퓨팅 스타트업 Lumai는 "2029년까지 10kW 전력 예산으로 1 엑사OPS"를 차세대 Iris Tetra 시스템에 약속했다. Tenstorrent의 Jim Keller CEO는 "업계 모두가 가속기를 가속하는 가속기를 짝지어 만들고 있다"며 복잡성을 경고했다.
💡💡 추론은 'prefill(연산 집약) + decode(메모리 대역폭 집약)' 두 단계로 나뉘어 단일 GPU로 최적화하기 어렵다는 점이 스타트업 부활의 진짜 동력이다. 하이퍼스케일러가 칩셋을 직접 조합하는 시대에는 메모리·인터커넥트 표준이 진짜 경쟁력이다.






