Skip to content

【工具自荐】基于视觉大模型的 OCR 识别工具 #5846

@dwqs

Description

@dwqs

ollama-ocr 是一个基于视觉大模型的 OCR 识别工具。

主要特性

  • 多模型支持:目前已支持的模型有 LLaVA 13BLlama 3.2 Vision 11B,后续还会支持其它视觉模型
  • 多格式输出:支持 MarkdownJSONPlain Text 等格式输出

快速开始

点击,按照步骤进行;也可 docker 搜索 debounce/ollama-ocr,快速运行 Demo。技术栈主要是 Vue 3 + Vite

示例

Input Image1

input-image

Output Markdown

output-markdown.png

Input Image2

input-image

Output JSON

output-json.png

Metadata

Metadata

Assignees

No one assigned

    Labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions