본문으로 건너뛰기
← 뉴스레터 목록

Issue #36 · 2026-06-24 · 2026. 6. 23.

vibecamp ai builder 2026-06-24 — Mistral OCR 4·Baidu Unlimited-OCR

문서 OCR 모델 두 개가 같은 날 공개됐습니다. Mistral OCR 4(바운딩박스·170개 언어·셀프호스트)와 Baidu Unlimited-OCR, llmfit 0.9.32/33 업데이트를 모았습니다.

📤 공유하기𝕏@inf💬B
🛠

최신 기술 트렌드

Mistral OCR 4 공식 발표 OG 이미지 — 문서 파싱 모델

Mistral OCR 4 — 위치·블록·신뢰도까지 주는 문서 파싱 모델

Mistral 이 6/23 OCR 4 를 공개했습니다. 단순 텍스트 추출을 넘어 텍스트 위치(bounding box), 블록 타입 분류(제목·표·수식·서명), 단어 단위 신뢰도 점수(confidence score)까지 함께 돌려줍니다. 170개 언어를 지원하고 단일 컨테이너로 self-host 가 가능하며, OlmOCRBench 85.20 으로 최고점을 기록했습니다. 가격은 API 기준 1,000페이지당 $4(Batch $2)입니다.
💡문서 기반 RAG·에이전트를 만든다면 위치·블록·신뢰도를 그대로 받아 후처리와 검증 로직을 크게 줄일 수 있습니다.
누가
Mistral AI
무엇을
OCR 4 — bounding box·블록 분류·신뢰도 점수·170개 언어를 지원하는 문서 파싱 모델
언제
2026-06-23 (Mistral AI 공식 발표)
어디서
https://mistral.ai/news/ocr-4/ (API·SageMaker·Microsoft Foundry, self-host 컨테이너)
RAG·문서 자동화 파이프라인에서 단순 텍스트가 아니라 구조(표/수식/서명 위치)와 신뢰도가 필요한 수요 대응
어떻게
API $4/1,000페이지(Batch $2)로 호출하거나 단일 컨테이너로 self-host, Mistral Search Toolkit 으로 RAG 연결
#mistral#ocr#document-parsing#rag#self-host
이미지: AI 생성 이미지원문 →
Baidu Unlimited-OCR — 긴 문서를 한 번에, 오픈웨이트 파싱

Baidu Unlimited-OCR — 긴 문서를 한 번에, 오픈웨이트 파싱

Baidu 가 6/23 Unlimited-OCR 를 arXiv 논문과 ModelScope 가중치로 공개했습니다. 'DeepSeek-OCR 를 한 단계 더 밀어붙인다'는 목표로, 단일 이미지·멀티페이지 문서·PDF 를 분할 없이 한 번에 파싱하는 long-horizon 방식입니다. gundam·base 두 처리 모드를 제공하고 MIT 라이선스 오픈웨이트라 self-host 와 파인튜닝이 자유롭습니다.
💡상용 API 대신 비용·데이터를 직접 통제하고 싶은 빌더라면, 오픈웨이트로 자체 인프라에 문서 파싱을 올리는 선택지가 생겼습니다.
누가
Baidu Inc. (논문 저자 Youyang Yin, Huanhuan Liu 등)
무엇을
Unlimited-OCR — 단일 패스 long-horizon 문서 파싱 OCR 모델(오픈웨이트, MIT)
언제
2026-06-23 (arXiv 논문 + ModelScope 가중치 공개, HN 6/23)
어디서
https://github.com/baidu/Unlimited-OCR (ModelScope 가중치, arXiv 논문)
긴 멀티페이지 문서를 분할 없이 한 번에 파싱하려는 수요와 오픈웨이트 OCR 의 필요성
어떻게
gundam/base 두 모드로 이미지·PDF 를 one-shot 처리, MIT 가중치를 self-host 또는 파인튜닝
#baidu#ocr#open-weights#document-parsing#deepseek-ocr
이미지: AI 생성 이미지원문 →

이 호가 도움됐다면 공유해 주세요.

📤 공유하기𝕏@inf💬B