MarkPDFDown
English | 中文
基于多模态大语言模型的PDF转Markdown工具,高质量实现文档结构化转换

项目概述
MarkPDFDown 是一款智能PDF转换Markdown工具,通过先进的多模态AI模型,能够将PDF文档准确转换为结构清晰的Markdown格式,保留原始文档的排版、表格、公式等复杂元素。
功能特性
- PDF转Markdown:支持任意PDF文档的格式转换
- 多模态理解:利用AI理解文档结构和内容
- 格式保留:完整保留标题、列表、表格等排版元素
- 模型定制:支持自定义AI模型参数配置
示例演示

安装指南
conda create -n markpdfdown python=3.9
conda activate markpdfdown
# 克隆仓库
git clone https://github.com/jorben/markpdfdown.git
cd markpdfdown
# 安装依赖
pip install -r requirements.txt
使用指南
# 设置OpenAI API密钥
export OPENAI_API_KEY=<你的API密钥>
# 可选设置API端点
export OPENAI_API_BASE=<你的API端点>
# 可选设置默认模型
export OPENAI_DEFAULT_MODEL=<你的模型>
# 运行转换程序
python main.py < tests/input.pdf > output.md
高级用法
# 转换指定页码范围
python main.py 起始页码 结束页码 < tests/input.pdf > output.md
在Docker中使用
docker run -i -e OPENAI_API_KEY=<你的API密钥> -e OPENAI_API_BASE=<你的API端点> -e OPENAI_DEFAULT_MODEL=<你的模型> jorben/markpdfdown < tests/input.pdf > output.md
依赖环境
- Python 3.9+
- 依赖库详见
requirements.txt
- 可访问的多模态AI模型服务
开源协议
本项目采用 Apache License 2.0 开源协议,详见 LICENSE 文件。
MarkPDFDown
English | 中文
基于多模态大语言模型的PDF转Markdown工具,高质量实现文档结构化转换
项目概述
MarkPDFDown 是一款智能PDF转换Markdown工具,通过先进的多模态AI模型,能够将PDF文档准确转换为结构清晰的Markdown格式,保留原始文档的排版、表格、公式等复杂元素。
功能特性
示例演示
安装指南
使用指南
高级用法
在Docker中使用
依赖环境
requirements.txt开源协议
本项目采用 Apache License 2.0 开源协议,详见 LICENSE 文件。