vibecamp ai model · #3 · 2026-06-24

vibecamp ai model 2026-06-24 — GQE 어텐션·에이전트 벤치마크 2종

GQA에 MoE 라우팅을 더한 GQE로 롱컨텍스트 1.8배, 멀티모달 데이터 엔진 DataClaw0, 에이전트 평가 벤치마크 PlanBench-XL·EnterpriseClawBench 등 신규 논문 5편을 분석했습니다.

5개 카드 · 새 AI 모델 분석 일간

📤 공유하기𝕏 @in f 💬✈B ✉

🖼

멀티모달

DataClaw0, 원시 멀티모달 스트림을 학습 데이터로 가공하는 9B 엔진

DataClaw0는 비디오·GUI 조작·로봇 궤적·텍스트 같은 거친 멀티모달 스트림을 구조화된 고품질 학습 데이터로 바꾸는 에이전트형 모델입니다. 결정적 앵커 추출과 생성 합성을 결합했고, Qwen3.5 기반 9B를 SFT와 GRPO로 학습했습니다. 34K 정제 예제·8×A100으로 학습해 GUI 내비게이션·비디오 생성·VQA 과제에서 상용 어노테이터와 동급 이상 결과를 냈습니다.

💡상용 어노테이션에 돈을 쓰는 대신 오픈 모델로 멀티모달 학습셋을 자동 정제하는 레시피라, 데이터 파이프라인을 직접 굴리는 1인 개발자에게 실용적입니다.

원문 →#multimodal#data-engine#qwen#grpo#annotation

⚡

경량·온디바이스

GQE, GQA 어텐션에 MoE 적용—쿼리 헤드 절반만 켜도 정확도 동급

Grouped Query Experts(GQE)는 grouped-query attention(GQA)의 쿼리 헤드에 mixture-of-experts 라우팅을 붙여, 토큰마다 모든 쿼리 헤드를 켜는 대신 그룹별로 일부 expert만 활성화합니다. 250M 모델 실험에서 쿼리-어텐션 연산의 절반 가까이만 쓰고도 HellaSwag·ARC-Easy·PIQA 평균 56.04로 전체 활성화 베이스라인(55.86)과 동급을 유지했습니다. 4k~1024k 토큰 롱컨텍스트 구간에선 1.67~1.80배 빨라졌습니다.

💡KV 메모리 이점은 그대로 두고 쿼리측 연산만 깎는 접근이라, 롱컨텍스트·온디바이스 추론을 고민하는 분께 새 절감 레버가 됩니다.

원문 →#moe#gqa#attention#efficiency#long-context

📊

벤치마크·평가

PlanBench-XL, 1,665개 툴 환경서 에이전트 '교란 적응력' 측정

PlanBench-XL은 LLM 에이전트가 1,665개 툴 생태계에서 적합한 툴을 스스로 찾고, 툴이 빠지거나 실패하거나 오도하는 상황에 적응하는지를 평가하는 인터랙티브 벤치마크입니다. 프런티어 LLM 10종을 327개 retail 과제로 시험했는데, 기본 설정에선 Gemini-3.1-Pro가 77.06%로 가장 높았지만 툴 접근이 심하게 막힌 조건에선 GPT-5.4가 11.36%까지 떨어졌습니다.

💡정상 환경 점수만 보면 가려지는 약점을 드러내는 벤치라, 에이전트를 만든다면 '툴이 깨질 때 내 에이전트는 버티나'를 먼저 점검하게 합니다.

원문 →#benchmark#agent#tool-use#planning#robustness

EnterpriseClawBench, 실제 사내 업무 세션 852개로 에이전트 평가

EnterpriseClawBench는 실제 사내 에이전트 업무 세션을 재현 가능한 벤치마크 과제로 바꾸는 자동 구축 프로토콜과 다차원 평가 틀을 제시합니다. 852개 과제(수동 검수 120개 Lite 서브셋)와 7개 직무·45개 스킬로 구성되며, 9개 모델을 5개 하네스에서 돌린 32개 조합을 평가했습니다. Lite 서브셋 최고 점수는 Codex/GPT-5.5 조합의 0.663이었습니다.

💡데모용 합성 과제가 아니라 진짜 직장 워크플로우 기준이라, 업무 자동화 에이전트의 현실적 성숙도(최고 조합도 0.66대)를 가늠하는 기준선이 됩니다.

원문 →#benchmark#enterprise#agent#workplace#evaluation

📄

핵심 논문(HF)

World Action Models 서베이—'덜 상상하고 더 행동하라'

World Action Models(WAM)는 미래 상태를 예측해 행동을 결정하는 임바디드 시스템입니다. 이 서베이는 월드모델·비디오 생성·WAM이 뒤섞여 쓰이는 상황을 정리해, 무엇을 생성하는지(렌더링된 미래/잠재 미래/생성 없는 추론)와 예측 기질·백본·행동 결합·배포의 4축으로 기존 연구를 분류합니다. 'WAM은 액션 헤드를 붙인 비디오 생성기가 아니라 표현 풍부함을 연산·메모리·지연·라벨 비용과 맞바꾸는 방법'이라는 점을 강조합니다.

💡피지컬 AI와 VLA를 공부할 때 난립하는 월드모델 연구를 한 장의 지도로 정리해줘, 다음 학습·설계 방향을 잡는 출발점으로 좋습니다.

원문 →#survey#world-model#vla#embodied-ai#robotics

이 호가 도움됐다면 공유해 주세요 — 빌더 한 명이 더 알게 됩니다.