Quick List
Item Details
MinerU
- What it is:
- 文档提取工具,可将 PDF、图片等复杂文档转换为 LLM 友好的 Markdown/JSON。
- 同时支持 API(服务化调用)与 CLI(本地批处理)。
- Why it matters:
- 适合做 RAG/知识库前处理;
- 可把非结构化文档转成可索引、可检索、可编排的数据格式。
- Input / Output:
- 输入:PDF、图片等文档。
- 输出:Markdown、JSON(便于阅读 + 程序处理)。
- When to use:
- 需要批量抽取文档内容;
- 需要表格/公式/版面结构保留;
- 需要对接自动化工作流(API 异步任务)。
- How to use (quick start):
- CLI 最小命令:
mineru -p <input_path> -o <output_path>
- CPU 兜底:
mineru -p <input_path> -o <output_path> -b pipeline
- API:获取 Token 后调用
https://mineru.net/api/v4/extract/task 创建任务并轮询结果。
- Installation notes (important):
- GitHub 安装可能较难,常见卡点是 OCR/推理依赖和平台差异(Windows/Linux/macOS、CPU/GPU)。
- 建议先按官方文档走
uv/pip 的推荐路径,先 CPU 跑通再切 GPU。
- 本地环境复杂时,优先 Docker;若要快速上线,先用官方 API。
- Links:
Compare at a Glance
| Item | Category | Best For | Notes |
|---|
| MinerU | PDF/Image Extraction | Markdown/JSON output for AI pipelines | API + CLI, local install can be heavy |
- AI 技术/GitHub/index
- AI 技术/GitHub/Valuable AI Tools
- AI 技术/General/Skill/skills.sh