
ZAYA1-8B, 오토리그레시브 MoE를 디퓨전으로 변환해 추론 속도 7.7배 달성
#Zyphra가 기존 오토리그레시브 MoE(혼합 전문가) 모델을 재훈련 없이 디스크리트 디퓨전(discrete diffusion) 방식으로 변환하는 기술을 공개했습니다. 핵심은 추론 병목을 메모리 대역폭에서 컴퓨팅 바운드로 전환해 동일 품질 유지하며 GPU 활용률을 7.7배 높인다는 점입니다. 수학 벤치마크에서 Claude 4.5 Sonnet, Gemini-2.5-Pro와 대등한 성능을 보였습니다. 모델 재훈련 없이 기존 LLM을 그대로 변환하는 경로가 처음으로 증명됐다는 점에서 주목됩니다.
💡💡 같은 품질의 추론을 7분의 1 비용으로 서빙할 수 있는 아키텍처가 등장했습니다. 소규모 팀도 프론티어급 추론 서비스를 운영할 수 있는 비용 구조가 열릴 수 있습니다.





