vibecamp ai model · #6 · 2026-07-05

vibecamp ai model 2026-07-05 — WorldDirector — LLM으로 3D 궤적 '연출'과 영상 생성을

2026-07-05 AI 모델 일간 호 — 오늘 2개 카드를 정리했습니다.

2개 카드 · 새 AI 모델 분석 일간

🖼

멀티모달

WorldDirector 개요 다이어그램 — LLM 기반 3D 궤적 연출과 영상 생성 단계를 분리한 구조 (arXiv 논문 그림)

WorldDirector — LLM으로 3D 궤적 '연출'과 영상 생성을 분리한 월드모델

HKUST·앤트그룹 등이 공개한 WorldDirector는 '무엇을 어떻게 움직일지'를 LLM이 3D 궤적 제어 신호로 연출하는 단계와, 실제 영상을 그려내는 생성 단계를 분리한 월드 시뮬레이터입니다. 지속형 동적 메모리(persistent dynamic memory)를 둬서, 등장 객체가 화면 밖으로 오래 사라졌다 다시 들어와도 시각적 정체성을 그대로 유지합니다. 기존 영상·월드 모델이 긴 호흡에서 객체 정체성과 제어력을 잃던 문제를 정면으로 노린 접근입니다.

💡인터랙티브 영상이나 에이전트 시뮬레이션을 만들려는 학습자라면, 영상 생성과 '연출(제어)'을 분리하고 메모리를 두는 설계가 왜 장기 일관성에 유리한지 눈여겨볼 만합니다.

원문 →#world-model#video-generation#llm-control#persistent-memory#controllable-generation

분포 단위 보상 RL 프레임워크 개요 그림 — FID 기반 보상과 subset-replace 전략 (arXiv 논문 그림)

분포 단위 보상으로 이미지 생성 RL의 '보상 해킹'을 막다 — 텐센트 훈위안

텐센트 훈위안 연구팀이 이미지 생성 모델을 강화학습(RL)으로 미세조정할 때, 표본 단위(sample-wise) 보상 대신 분포 단위(FID 기반) 보상을 쓰는 방법을 제안했습니다. 표본 단위 보상은 보상 해킹과 다양성 붕괴를 일으키는데, 분포 수준 보상은 다양성을 지키면서 품질을 끌어올립니다. 참조 이미지 집합의 일부만 교체해 FID를 효율적으로 계산하고, 사후 모델 병합을 더해 FID-50K를 SiT 8.30→5.77, EDM2 3.74→3.52로 개선했습니다.

💡확산·플로우 기반 이미지 생성기를 RL로 다듬어 본 학습자라면, '표본이 아니라 분포를 보상하라'는 아이디어가 다양성 붕괴를 피하는 실전 레시피가 됩니다.

원문 →#rlhf#image-generation#fid#diffusion#tencent-hunyuan

이 호가 도움됐다면 공유해 주세요 — 빌더 한 명이 더 알게 됩니다.

📤 공유하기𝕏 @in f 💬✈B ✉

멀티모달

WorldDirector — LLM으로 3D 궤적 '연출'과 영상 생성을 분리한 월드모델

분포 단위 보상으로 이미지 생성 RL의 '보상 해킹'을 막다 — 텐센트 훈위안

함께 보면 좋은 서비스