본문으로 건너뛰기
vibecamp ai builder 목록

vibecamp ai builder · #36 · 2026-06-24

vibecamp ai builder 2026-06-24 — Mistral OCR 4·Baidu Unlimited-OCR

문서 OCR 모델 두 개가 같은 날 공개됐습니다. Mistral OCR 4(바운딩박스·170개 언어·셀프호스트)와 Baidu Unlimited-OCR, llmfit 0.9.32/33 업데이트를 모았습니다.

3개 카드 · AI Agent 를 만드는 사람의 일간

📤 공유하기𝕏@inf💬B
🛠

빌더 신호

Mistral OCR 4 공식 발표 OG 이미지 — 문서 파싱 모델

Mistral OCR 4 — 위치·블록·신뢰도까지 주는 문서 파싱 모델

#
Mistral 이 6/23 OCR 4 를 공개했습니다. 단순 텍스트 추출을 넘어 텍스트 위치(bounding box), 블록 타입 분류(제목·표·수식·서명), 단어 단위 신뢰도 점수(confidence score)까지 함께 돌려줍니다. 170개 언어를 지원하고 단일 컨테이너로 self-host 가 가능하며, OlmOCRBench 85.20 으로 최고점을 기록했습니다. 가격은 API 기준 1,000페이지당 $4(Batch $2)입니다.
💡문서 기반 RAG·에이전트를 만든다면 위치·블록·신뢰도를 그대로 받아 후처리와 검증 로직을 크게 줄일 수 있습니다.
원문 →#mistral#ocr#document-parsing#rag#self-host
Baidu Unlimited-OCR — 긴 문서를 한 번에, 오픈웨이트 파싱

Baidu Unlimited-OCR — 긴 문서를 한 번에, 오픈웨이트 파싱

#
Baidu 가 6/23 Unlimited-OCR 를 arXiv 논문과 ModelScope 가중치로 공개했습니다. 'DeepSeek-OCR 를 한 단계 더 밀어붙인다'는 목표로, 단일 이미지·멀티페이지 문서·PDF 를 분할 없이 한 번에 파싱하는 long-horizon 방식입니다. gundam·base 두 처리 모드를 제공하고 MIT 라이선스 오픈웨이트라 self-host 와 파인튜닝이 자유롭습니다.
💡상용 API 대신 비용·데이터를 직접 통제하고 싶은 빌더라면, 오픈웨이트로 자체 인프라에 문서 파싱을 올리는 선택지가 생겼습니다.
원문 →#baidu#ocr#open-weights#document-parsing#deepseek-ocr
🦀

llmfit 일일 다이프

llmfit 0.9.32 — 멀티-GPU·MoE·오디오 모델까지 right-size

llmfit 0.9.32 — 멀티-GPU·MoE·오디오 모델까지 right-size

#
하드웨어에 맞춰 LLM 을 right-size 해주는 Rust 도구 llmfit 가 6/23 0.9.32, 0.9.33 을 연달아 냈습니다. 0.9.32 에서 Whisper/ASR 오디오 모델이 추천 대상에 추가되고, 모든 GPU 를 감지해 멀티-GPU VRAM 을 합산하는 fit 계산, CPU-only 모델의 Good 판정, MoE active-param·recency 기반 스코어링 개선이 들어갔습니다. 0.9.33 은 docker 빌더를 rust 1.95 로 올린 빌드 수정입니다.
💡멀티-GPU·CPU-only·MoE 환경에서 어떤 LLM 을 돌릴지 고를 때, 더 정확한 fit 등급과 음성 모델 추천까지 받아볼 수 있습니다.

이 호가 도움됐다면 공유해 주세요 — 빌더 한 명이 더 알게 됩니다.

📤 공유하기𝕏@inf💬B

함께 보면 좋은 서비스

vibecamp ai builder 2026-06-24 — Mistral OCR 4·Baidu Unlimited-OCR | vibecamp ai builder