
Baidu, 3B 멀티모달 문서 OCR 모델 'Unlimited-OCR' MIT로 공개
#Baidu가 2026-06-22 HuggingFace에 Unlimited-OCR을 공개했습니다. 약 3B 파라미터(BF16)의 vision-language(image-text-to-text) 모델로, 단일 이미지뿐 아니라 다중 페이지 문서·PDF를 '무제한(unlimited)' 길이로 한 번에 파싱하는 것을 목표로 합니다. 최대 컨텍스트는 32,768토큰이며, 단일 이미지는 gundam(image 640·crop)/base(image 1024) 두 모드, 다중 페이지·PDF는 base(1024) 모드를 씁니다. 모델 카드는 'Deepseek-OCR를 한 걸음 더 밀어붙였다'며 DeepSeek-OCR·DeepSeek-OCR-2·PaddleOCR 계보를 명시하고, multilingual·MIT 라이선스로 배포합니다.
💡거대 VLM 없이도 다중 페이지/PDF 문서를 한 번에 처리하려는 팀에, 3B 소형 + MIT 라이선스로 RAG·문서 자동화 파이프라인에 곧바로 끼울 수 있는 다국어 OCR 옵션입니다.