vibecamp ai model · #5 · 2026-06-29

vibecamp ai model 2026-06-29 — Qwen-Image 2.0·물리 월드모델·한국어 벤치

Qwen-Image-2.0-RL(편집 Elo +93), Tencent ViQ, 물리강화 월드모델 PhysisForcing, 한국어 웹에이전트 벤치 Ko-WideSearch 등 신규 논문 8편을 분석했습니다.

8개 카드 · 새 AI 모델 분석 일간

🖼

멀티모달

Qwen-Image-2.0-RL — RLHF·증류로 이미지 편집 Elo +93

알리바바 Qwen 팀이 디퓨전 기반 이미지 생성·편집 모델 Qwen-Image-2.0 에 RLHF 와 온폴리시 증류(on-policy distillation) 후처리를 적용한 기술 리포트를 냈습니다. 태스크별 보상 모델과 GRPO 기반 RL, 궤적 단위 velocity matching 으로 모델을 다듬어, Qwen-Image-Bench 종합 57.84(+2.61), 이미지 편집 아레나 Elo 1349(+93), 텍스트→이미지 아레나 Elo 1193(+78)을 기록했습니다. LLM 후처리 기법이 생성 모델로 옮겨오는 흐름을 보여줍니다.

💡이미지 생성·편집을 제품에 쓰는 분이라면, RLHF·증류 후처리가 편집 정밀도를 실측으로 끌어올린 레시피를 참고할 만합니다.

원문 →#qwen#image-generation#rlhf#diffusion#multimodal

ViQ — 텍스트 정렬 이산 시각 토큰, 학습 20~70% 가속

텐센트 HY Vision 팀 등이 이미지를 의미와 저수준 디테일을 모두 보존하는 이산 토큰으로 바꾸는 ViQ 를 공개했습니다. 텍스트 정렬 사전학습 뒤 점진적으로 특징을 이산화하는 2단계 방식으로, 멀티모달 이해 9개 벤치 평균 63.9(7B)를 내며 기존 SOTA(63.8)와 양자화 모델(QLIP 29.7, UniTok 33.0)을 앞섰습니다. 학습은 20~70% 빨라지고 이미지 저장은 1/96 로 줄어듭니다. 멀티모달 토큰화의 효율을 끌어올린 연구입니다.

💡같은 비주얼 정보를 더 적은 토큰·저장으로 다루게 해, 멀티모달 모델의 학습·서빙 비용을 낮추는 방향을 보여줍니다.

원문 →#tencent#tokenizer#multimodal#quantization#efficiency

🧩

추론·에이전트

추론 모델, 벤치 점수와 '사고 표현 품질'은 다르다

브리티시컬럼비아대(UBC) 연구팀이 LLM 의 잠재 사고(latent thought) 표현을 다운스트림 정확도와 무관하게 평가하는 4가지 공리를 제안했습니다. 인과성·최소성·분리성·안정성으로 측정한 결과, 어떤 모델도 네 공리를 동시에 만족하지 못했고, 표현은 태스크 유형은 구분해도 같은 태스크 안 개별 질문은 구분하지 못했습니다. dense·증류·RL 계열 전반에서 일관된 실패라, 아키텍처가 아닌 구조적 한계로 봤습니다.

💡추론 모델을 고를 때 벤치 점수만 믿지 말라는 경고로, '연속 추론'의 표현 품질을 직접 들여다보는 진단 틀을 줍니다.

원문 →#reasoning#interpretability#evaluation#latent-thought#llm

⚡

경량·온디바이스

라우팅+에스컬레이션으로 LLM 서빙 비용 줄이기

트리니티 칼리지 더블린 ADAPT 센터와 화웨이 리서치가 비용 인지형(cost-aware) LLM 서빙용 2단계 캐스케이드를 제안했습니다. 1단계는 쿼리를 k-means 로 묶어 예산에 맞춰 저비용 모델에 배정하고, 2단계는 품질 추정기로 자신 없는 출력만 강한 모델로 올립니다. AIME 2024 에서 최강 모델 정확도의 99.2% 를 유지하면서 지연을 18% 줄였고, TeleQnA 에서는 97% 정확도에 추가 지연이 0.7ms 뿐이었습니다.

💡단일 모델로 모든 쿼리를 처리하던 서비스라면, 라우팅과 선택적 에스컬레이션만으로 품질 손실 없이 비용을 줄일 수 있습니다.

원문 →#llm-serving#routing#cost-aware#cascade#efficiency

MultiHashFormer — 어휘 키워도 파라미터 일정한 해시 LM

토큰을 여러 독립 해시 함수가 만든 짧은 해시 ID 시퀀스로 표현하는 MultiHashFormer 가 공개됐습니다. 트랜스포머 안에 Hash Encoder-Decoder 를 넣어 해시 기반 자기회귀(autoregression)를 가능하게 했고, 기존 해싱이 인코더 전용에 머물던 충돌 문제를 풀었습니다. 100M·1B·3B 규모에서 표준 트랜스포머 LM 과 동급 이상 성능을 내면서, 어휘(vocabulary)를 키워도 파라미터 크기가 일정하게 유지됩니다. 다국어 어휘 확장에서 특히 유리합니다.

💡한국어처럼 어휘가 많이 필요한 언어에서, 모델을 무겁게 만들지 않고 어휘를 늘리는 접근으로 참고할 만합니다.

원문 →#tokenizer#hashing#vocabulary#multilingual#efficiency

📊

벤치마크·평가

Ko-WideSearch — 한국어 웹 에이전트 '완전 열거' 벤치

단일 답 검색이 아니라 '빠짐없는 집합 열거'를 평가하는 첫 한국어 웹 에이전트 벤치마크 Ko-WideSearch 가 나왔습니다. 16개 카테고리·190개 엔티티에 걸친 228개 표(골드 행 4,262개)로, 집합 복원·셀 채우기·완전 행 완성을 측정합니다. GPT-5.5 가 집합 찾기(Item-F1)는 92.8 인데 완전 행 완성(Row-F1)은 53.7 에 그쳐, 프런티어 모델도 빠짐없이 채우는 데는 약함을 보였습니다. 한국어 특화 모델은 오히려 프런티어보다 뒤처졌습니다.

💡한국어 웹 에이전트를 만든다면, 프런티어 모델조차 완전 열거에 약하다는 점을 평가 기준으로 삼을 만합니다.

원문 →#benchmark#web-agent#korean#evaluation#agent

📄

핵심 논문(HF)

GBC — 멀티에이전트 '책임 추적'으로 보상 13→24.3

일리노이대(UIUC) 연구팀이 멀티에이전트 LLM 시스템에서 어느 에이전트가 결과에 얼마나 기여했는지 토큰 단위로 추적하는 GBC(Gradient-Based Connections) 를 제안했습니다. 에이전트 워크플로를 계산 그래프로 보고 그래디언트 신호로 영향을 정량화하며, prefix 기반 계산으로 메모리도 아낍니다. MultiWOZ 의 Joint Goal Accuracy 가 28.9→54.4, τ-bench 종합 보상이 13.0→24.3 으로 단일 에이전트(22.6)도 넘어섰습니다.

💡에이전트 파이프라인을 짤 때, 어느 단계가 실패를 만드는지 콕 집어 개선하는 디버깅·최적화 도구로 쓸 수 있습니다.

원문 →#multi-agent#credit-assignment#optimization#agent#llm

PhysisForcing — 물리 일관성을 강화한 월드 시뮬레이터로 로봇 조작 성공률을 높인 연구의 대표 figure

PhysisForcing — 물리 강화 월드 모델, 조작 성공률 16→24%

베이징대와 NVIDIA 가 비디오 생성 모델의 물리 일관성을 끌어올리는 학습 프레임워크 PhysisForcing 을 공개했습니다. 물리 정보가 많은 영역에 픽셀 단위 궤적 정렬과 의미 단위 관계 정렬을 함께 적용해, Wan·Cosmos 계열 모델에서 R-Bench 가 최대 +22.3% 오르고 WorldArena 폐루프 조작 성공률이 16.0%→24.0% 로 올랐습니다. 비디오 생성 모델이 불연속 모션이나 비일관 상호작용을 내던 문제를 물리 정렬 학습으로 풀었습니다.

💡비디오 생성 모델을 로봇용 '월드 모델'로 쓰려는 흐름에서, 물리 일관성을 학습으로 주입하는 방향을 보여줍니다.

원문 →#world-model#physical-ai#video-generation#robotics#nvidia

이 호가 도움됐다면 공유해 주세요 — 빌더 한 명이 더 알게 됩니다.

📤 공유하기𝕏 @in f 💬✈B ✉