
NVIDIA SANA-WM, 단일 GPU로 1분 720p 영상 생성 월드모델 공개
#NVIDIA Labs가 5월 16일 단일 이미지와 카메라 궤적만으로 60초 길이 720p 영상을 생성하는 2.6B 파라미터 오픈소스 월드 모델 SANA-WM을 공개했다. 표준 softmax 어텐션은 영상 길이가 길어질수록 메모리가 폭발해 분 단위 생성이 비현실적이었으나, SANA-WM은 Gated DeltaNet + softmax 하이브리드 백본으로 영상 길이와 무관하게 일정한 D×D 상태를 유지해 이 문제를 해결했다. 성능도 인상적이다. H100 8장에서 시간당 22편을 생성해 비슷한 VBench 품질의 LingBot-World 대비 36배 높은 처리량을 보이며, NVFP4 양자화를 적용한 증류 버전은 RTX 5090 한 장으로 60초 720p 클립을 34초 만에 denoise한다. 모델은 H100 64장으로 약 18.5일, 공개 영상 클립 21만 2,975편만으로 학습됐고 NVlabs/Sana GitHub 레포에서 받을 수 있다. Hacker News 프론트페이지에서 265점을 기록했다.
💡💡 월드 모델·비디오 생성이 더 이상 대규모 GPU 클러스터의 영역이 아닙니다. RTX 5090 한 장이면 1분 영상 생성을 실험할 수 있으니, 카메라 제어형 영상·시뮬레이션·게임 프로토타입을 구상 중이라면 SANA-WM 레포를 바로 받아 PoC를 돌려보세요.






