vibecamp ai model · #4 · 2026-06-26

vibecamp ai model 2026-06-26 — iLLaDA 8B 디퓨전 LLM·에이전트 메모리

확산 기반 LLM iLLaDA 8B, 실시간 AV 생성 Wan-Streamer, 에이전트 네이티브 메모리(HF 1위) 등 신규 모델·논문 7편을 분석했습니다.

7개 카드 · 새 AI 모델 분석 일간

🧠

LLM·파운데이션 출시

iLLaDA — 8B 확산 언어모델, Qwen2.5 7B와 경쟁

런민대와 ByteDance Seed 팀이 80억 파라미터 마스크 확산(masked diffusion) 언어모델 iLLaDA를 공개했습니다. 완전 양방향 어텐션으로 12조 토큰을 사전학습했고, 전작 LLaDA 대비 BBH +21.6, ARC-Challenge +14.9, 명령어 튜닝본은 MATH +14.5·HumanEval +16.5만큼 올랐습니다. iLLaDA-Base는 MMLU·GSM8K 등에서 자기회귀(autoregressive) 모델인 Qwen2.5 7B와 경쟁하거나 앞섭니다.

💡확산형 LLM이 같은 체급 AR 모델과 붙을 수 있다는 신호로, 병렬 디코딩 같은 다른 추론 특성을 실험하려는 학습자에게 새 선택지가 됩니다.

원문 →#diffusion-llm#illada#open-weights#bytedance

🖼

멀티모달

DomainShuttle, 참조 이미지로 스타일까지 바꾸는 영상 생성

홍콩과기대(HKUST) 팀의 DomainShuttle은 참조 이미지로 비디오를 만들면서 주제 정체성을 유지하되, 외형 보존(인도메인)과 스타일 변형(크로스도메인)을 자유롭게 오갑니다. Domain-MoT와 Video-Reference DualRoPE, Cross-Pair Loss로 조명·구도에 강건한 본질 피처를 뽑습니다. 크로스도메인 점수가 SOTA 대비 18.7% 높고, CD-Score는 0.861로 VACE(0.546)를 크게 앞섭니다.

💡한 장의 참조 이미지로 인물·사물 정체성은 지키고 스타일만 바꾸는 영상이 가능해져, 캐릭터·광고 콘텐츠 워크플로의 통제력이 올라갑니다.

원문 →#text-to-video#subject-driven#domainshuttle#video-generation

Wan-Streamer v0.1 — 듣고 말하기 동시, 실시간 AV 모델

Wan-Streamer v0.1은 텍스트·오디오·비디오를 입출력으로 동시에 다루는 단일 트랜스포머 모델입니다. 음성검출(VAD)·음성인식(ASR)·TTS·비디오 생성을 별도 모듈로 잇지 않고 하나의 인과(causal) 구조 안에서 처리합니다. 모델측 지연은 약 200ms, 총 상호작용 지연 약 550ms이며 192p·25fps로 동작합니다. 듣기와 말하기가 동시에 일어나는 full-duplex 실시간 상호작용을 겨냥한 초기(v0.1) 버전입니다.

💡모듈을 잇지 않고 end-to-end로 실시간 음성·영상을 처리하는 방향이라, 라이브 아바타나 음성 에이전트를 만들려는 사람에게 참고할 아키텍처입니다.

원문 →#multimodal#real-time#wan-streamer#full-duplex

🧩

추론·에이전트

OPID, 작은 에이전트 모델의 RL 효율을 끌어올리다

칭화대 등 공동 연구팀의 OPID는 에이전트 강화학습(RL)의 희소 보상 문제를 푸는 방법입니다. 완료된 온폴리시 궤적에서 '계층적 사후 스킬'을 뽑아 토큰 단위의 촘촘한 학습 신호로 다시 증류합니다. Qwen2.5-3B 기준 ALFWorld 84.3%(+9.3), WebShop 74.2%(+10.9), 검색 QA 45.0%(+8.6)로 GRPO를 앞섰고, 전체 데이터 성능을 약 60% 데이터만으로 달성했습니다.

💡외부 스킬 라이브러리 없이 작은 모델의 장기 에이전트 성능을 올리는 접근이라, 적은 데이터로 에이전트를 학습시키려는 1인 개발자에게 비용 절감 힌트가 됩니다.

원문 →#agentic-rl#skill-distillation#opid#credit-assignment

다단계 툴유즈 RL은 왜 무너지나 — 원인은 제어 토큰

중국과학원 자동화연구소(CASIA) 팀이 여러 툴을 순차로 쓰는 에이전트 RL이 갑자기 붕괴하는 원인을 밝혔습니다. 이 '구조적 붕괴'는 추론 능력이 사라져서가 아니라, 특정 제어 토큰(control token)의 확률이 비정상적으로 커지며 툴 호출 형식이 깨지기 때문이었습니다. 해법으로 SFT와 RL을 교차하고, 궤적을 텍스트 반성으로 바꾸는 Process Reflection Supervision을 적용하니 Qwen2.5-1.5B가 4.0%에서 31.0%(+27점)로 올랐습니다.

💡툴 호출 에이전트를 RL로 학습하다 성능이 무너진 경험이 있다면, 원인이 추론이 아니라 토큰 동역학일 수 있다는 진단이 실전 디버깅에 직접 쓰입니다.

원문 →#tool-use#agentic-rl#training-stability#control-tokens

📊

벤치마크·평가

코딩 에이전트 보상엔 '은탄환'이 없다 (Qwen 팀)

알리바바 Qwen 팀이 코딩 에이전트의 보상 설계를 분석했습니다. 에이전트가 강해질수록 해를 검증하는 일이 해를 생성하는 일보다 어려워지고, 모든 검증기는 인간 의도의 대리일 뿐이라는 게 핵심입니다. 검증 품질을 확장성·충실성·견고성 세 축으로 보면서, 행동 모니터링으로 '보상 해킹' 통과율을 28.57%에서 0.56%로 낮추고 정상 해결률을 40.22%에서 60.53%로 올렸습니다. 과제 유형별로 다른 처방이 필요하다는 결론입니다.

💡코딩 에이전트를 RL로 다루거나 보상을 설계할 때, 단일 만능 보상은 없으며 과제 종류에 맞춘 검증이 필요하다는 실전 기준을 줍니다.

원문 →#coding-agent#reward-design#reward-hacking#qwen#benchmark

📄

핵심 논문(HF)

에이전트 메모리 시스템 12종, 만능은 없었다

LLM 에이전트의 메모리 시스템을 데이터 관리 관점에서 종합 평가한 논문으로, 6/25 허깅페이스 트렌딩 1위(93추천)에 올랐습니다. 메모리를 표현·추출·검색·유지보수 4개 모듈로 나눠 Mem0·Letta·Zep·A-MEM 등 12종을 11개 데이터셋에서 비교했습니다. 결론은 '모든 시나리오를 지배하는 단일 아키텍처는 없다'입니다. SimpleMem이 Recall@1 39.0으로 최고, flat RAG는 증거 거리가 멀어지면 F1이 37.1에서 7.4로 급락했습니다.

💡장기 메모리 에이전트를 설계할 때 무엇을 쓸지 고를 기준을 제공하는 정리라, 메모리 도입을 고민하는 개발자에게 바로 참고가 됩니다.

원문 →#agent-memory#rag#evaluation#survey#long-context

이 호가 도움됐다면 공유해 주세요 — 빌더 한 명이 더 알게 됩니다.

📤 공유하기𝕏 @in f 💬✈B ✉