vibecamp ai model · #1 · 2026-06-20

vibecamp AI 모델 창간호 — LFM2.5 임베딩·VibeThinker-3B·HF 트렌딩 논문

새 AI 모델 분석 첫 호. Liquid LFM2.5 임베딩/ColBERT, 3B 추론 모델 VibeThinker, 0.2B 인페인팅 Moebius, 다국어 코드 벤치 Multi-LCB까지 오늘의 5건.

5개 카드 · 새 AI 모델 분석 일간

🧠

LLM·파운데이션 출시

Liquid AI, 한국어 포함 11개 언어 350M 임베딩 모델 공개

Liquid AI가 약 354M 파라미터의 덴스 바이인코더(dense bi-encoder) LFM2.5-Embedding-350M을 공개했습니다. LFM 계열 최초로 인과 디코더를 양방향 인코더로 전환한 17레이어(conv 10 + attn 6 + pool 1) 구조이며, 컨텍스트 32,768토큰·1024차원 임베딩을 지원합니다. 한국어를 포함한 11개 언어에서 NanoBEIR ML NDCG@10 0.577, MKQA-11 Recall@20 0.691을 기록하고, 엔터프라이즈 스택 기준 검색 지연 1.5ms 수준입니다.

💡프런티어 LLM을 검색 단계에 쓰는 대신, 350M 소형 임베딩으로 온디바이스·엣지 RAG의 비용과 지연을 낮추려는 팀에 곧바로 끼울 수 있는 다국어 옵션입니다.

원문 →#embedding#rag#multilingual#on-device#open-source

Liquid AI, 토큰 단위 매칭 ColBERT-350M 검색 모델도 공개

임베딩 모델과 함께 공개된 LFM2.5-ColBERT-350M은 약 353M 파라미터의 late-interaction(ColBERT) 모델로, 문서를 단일 벡터가 아닌 토큰별 벡터로 표현해 더 정밀하게 매칭합니다. 동일한 LFM2.5-350M-Base 백본·17레이어 양방향 구조를 쓰고 문서 512토큰·쿼리 32토큰을 처리합니다. 11개 언어(한국어 포함)에서 NanoBEIR ML NDCG@10 0.605, MKQA-11 Recall@20 0.694로, 동급 덴스 임베딩(0.577/0.691) 대비 검색 정확도가 더 높습니다.

💡정확도가 우선인 다국어 RAG라면 같은 백본의 덴스 임베딩과 ColBERT를 비교해, 지연·정확도 트레이드오프를 350M 규모 안에서 직접 고를 수 있습니다.

원문 →#colbert#late-interaction#rag#retrieval#open-source

🧩

추론·에이전트

VibeThinker-3B, 3B로 671B·1T급 추론 동급 달성

Sina Weibo(WeiboAI)가 Qwen2.5-Coder-3B 기반의 밀집 추론 모델 VibeThinker-3B를 공개했습니다. 커리큘럼 SFT → 다중도메인 Reasoning RL → 오프라인 자기증류 → Instruct RL로 이어지는 'Spectrum-to-Signal' 후학습으로, 검증가능 추론에서 DeepSeek V3.2(671B)·Kimi K2.5(1T)와 동급 성능을 223×·333× 작은 크기로 냈습니다. AIME26 94.3(+CLR 97.1), LiveCodeBench v6 80.2, GPQA-Diamond 70.2를 기록했고 미공개 LeetCode 콘테스트 첫 제출 96.1%(123/128)를 통과했습니다. MIT 라이선스입니다.

💡추론 성능이 파라미터 스케일에만 달렸다는 통념을 깨는 사례로, 후학습 설계만으로 온디바이스·저비용 추론 에이전트를 노려볼 수 있음을 보여줍니다.

원문 →#reasoning#small-model#post-training#rl#mit-license

📄

핵심 논문(HF)

Moebius, 0.2B로 10B급 이미지 인페인팅 품질 달성

Moebius는 약 0.226B 파라미터만으로 11.9B FLUX.1-Fill-Dev급 인페인팅 품질을 냅니다. 공간 컨텍스트와 전역 의미 prior를 고정 크기 선형 행렬로 요약하는 Local-λ Mix Interaction(LλMI) 블록에 depthwise conv·Mix-FFN, 다중 입도 distillation을 결합해 압축 구조의 표현 병목을 풉니다. 0.154 TFLOPs·26.01ms/step으로 산업 베이스라인 대비 추론이 15배 이상 빠르며, Places2(Small) FID 0.92, CelebA-HQ FID 5.39를 기록했습니다.

💡거대 확산 모델 없이도 상용급 인페인팅을 온디바이스로 내릴 수 있다는 증거로, λ형 선형 요약 + distillation은 다른 비전 생성 태스크의 경량화 레시피로도 참고할 만합니다.

원문 →#inpainting#diffusion#efficient#distillation#on-device

Multi-LCB, 코딩 벤치 12개 언어 확장—'Python 만능' 반박

Multi-LCB는 Python 전용이던 LiveCodeBench를 C++·Java·Go·Rust·TypeScript 등 12개 언어로 자동 변환하고 release-date 필터로 데이터 오염을 통제한 벤치마크입니다. 24개 LLM 평가에서 Python 평균 Pass@1 48.2% vs Scala 29%로, 강한 Python 성능이 다른 언어로 전이되지 않는 'Python overfitting'을 입증했습니다. 상위 모델(GPT-OSS-120B, Qwen3-235B)도 언어 평균 약 68~74%에 그쳤습니다. 프롬프트·코드·설정은 CC BY-NC 4.0으로 공개됐습니다.

💡'Python 잘하면 다 잘한다'는 가정이 깨진 만큼, 비파이썬 스택 팀이라면 코딩 모델·에이전트를 도입하기 전 타깃 언어로 직접 실측하는 절차가 필요합니다.

원문 →#benchmark#code-llm#evaluation#polyglot#open-source

이 호가 도움됐다면 공유해 주세요 — 빌더 한 명이 더 알게 됩니다.

📤 공유하기𝕏 @in f 💬✈B ✉