
Qwen-Image-2.0-RL — RLHF·증류로 이미지 편집 Elo +93
#알리바바 Qwen 팀이 디퓨전 기반 이미지 생성·편집 모델 Qwen-Image-2.0 에 RLHF 와 온폴리시 증류(on-policy distillation) 후처리를 적용한 기술 리포트를 냈습니다. 태스크별 보상 모델과 GRPO 기반 RL, 궤적 단위 velocity matching 으로 모델을 다듬어, Qwen-Image-Bench 종합 57.84(+2.61), 이미지 편집 아레나 Elo 1349(+93), 텍스트→이미지 아레나 Elo 1193(+78)을 기록했습니다. LLM 후처리 기법이 생성 모델로 옮겨오는 흐름을 보여줍니다.
💡이미지 생성·편집을 제품에 쓰는 분이라면, RLHF·증류 후처리가 편집 정밀도를 실측으로 끌어올린 레시피를 참고할 만합니다.






