vibecamp ai model · #2 · 2026-06-23

vibecamp ai model 2026-06-23 — Baidu Unlimited-OCR 공개

바이두가 길이 제한 없는 문서 OCR 비전-언어 모델 Unlimited-OCR(약 3B, MIT)을 공개했습니다. PDF 무제한 페이지 파싱과 다국어 지원이 핵심입니다.

1개 카드 · 새 AI 모델 분석 일간

🖼

멀티모달

Baidu, 3B 멀티모달 문서 OCR 모델 'Unlimited-OCR' MIT로 공개

Baidu가 2026-06-22 HuggingFace에 Unlimited-OCR을 공개했습니다. 약 3B 파라미터(BF16)의 vision-language(image-text-to-text) 모델로, 단일 이미지뿐 아니라 다중 페이지 문서·PDF를 '무제한(unlimited)' 길이로 한 번에 파싱하는 것을 목표로 합니다. 최대 컨텍스트는 32,768토큰이며, 단일 이미지는 gundam(image 640·crop)/base(image 1024) 두 모드, 다중 페이지·PDF는 base(1024) 모드를 씁니다. 모델 카드는 'Deepseek-OCR를 한 걸음 더 밀어붙였다'며 DeepSeek-OCR·DeepSeek-OCR-2·PaddleOCR 계보를 명시하고, multilingual·MIT 라이선스로 배포합니다.

💡거대 VLM 없이도 다중 페이지/PDF 문서를 한 번에 처리하려는 팀에, 3B 소형 + MIT 라이선스로 RAG·문서 자동화 파이프라인에 곧바로 끼울 수 있는 다국어 OCR 옵션입니다.

원문 →#ocr#document-ai#vision-language#pdf#mit-license

이 호가 도움됐다면 공유해 주세요 — 빌더 한 명이 더 알게 됩니다.

📤 공유하기𝕏 @in f 💬✈B ✉

멀티모달

Baidu, 3B 멀티모달 문서 OCR 모델 'Unlimited-OCR' MIT로 공개

함께 보면 좋은 서비스