ollama-ocr 是一个基于视觉大模型的 OCR 识别工具。
主要特性
- 多模型支持:目前已支持的模型有
LLaVA 13B 和 Llama 3.2 Vision 11B,后续还会支持其它视觉模型
- 多格式输出:支持
Markdown、JSON 和 Plain Text 等格式输出
快速开始
可点击,按照步骤进行;也可 docker 搜索 debounce/ollama-ocr,快速运行 Demo。技术栈主要是 Vue 3 + Vite
示例
Input Image1

Output Markdown

Input Image2

Output JSON

ollama-ocr 是一个基于视觉大模型的 OCR 识别工具。
主要特性
LLaVA 13B和Llama 3.2 Vision 11B,后续还会支持其它视觉模型Markdown、JSON和Plain Text等格式输出快速开始
可点击,按照步骤进行;也可 docker 搜索
debounce/ollama-ocr,快速运行 Demo。技术栈主要是 Vue 3 + Vite示例
Input Image1
Output Markdown
Input Image2
Output JSON