
Mistral OCR 4 — 위치·블록·신뢰도까지 주는 문서 파싱 모델
#Mistral 이 6/23 OCR 4 를 공개했습니다. 단순 텍스트 추출을 넘어 텍스트 위치(bounding box), 블록 타입 분류(제목·표·수식·서명), 단어 단위 신뢰도 점수(confidence score)까지 함께 돌려줍니다. 170개 언어를 지원하고 단일 컨테이너로 self-host 가 가능하며, OlmOCRBench 85.20 으로 최고점을 기록했습니다. 가격은 API 기준 1,000페이지당 $4(Batch $2)입니다.
💡문서 기반 RAG·에이전트를 만든다면 위치·블록·신뢰도를 그대로 받아 후처리와 검증 로직을 크게 줄일 수 있습니다.

