DocExtractTools

Quick List

Item Details

MinerU

  • What it is:
    • 文档提取工具,可将 PDF、图片等复杂文档转换为 LLM 友好的 Markdown/JSON。
    • 同时支持 API(服务化调用)与 CLI(本地批处理)。
  • Why it matters:
    • 适合做 RAG/知识库前处理;
    • 可把非结构化文档转成可索引、可检索、可编排的数据格式。
  • Input / Output:
    • 输入:PDF、图片等文档。
    • 输出:Markdown、JSON(便于阅读 + 程序处理)。
  • When to use:
    • 需要批量抽取文档内容;
    • 需要表格/公式/版面结构保留;
    • 需要对接自动化工作流(API 异步任务)。
  • How to use (quick start):
    • CLI 最小命令:mineru -p <input_path> -o <output_path>
    • CPU 兜底:mineru -p <input_path> -o <output_path> -b pipeline
    • API:获取 Token 后调用 https://mineru.net/api/v4/extract/task 创建任务并轮询结果。
  • Installation notes (important):
    • GitHub 安装可能较难,常见卡点是 OCR/推理依赖和平台差异(Windows/Linux/macOS、CPU/GPU)。
    • 建议先按官方文档走 uv/pip 的推荐路径,先 CPU 跑通再切 GPU。
    • 本地环境复杂时,优先 Docker;若要快速上线,先用官方 API。
  • Links:

Compare at a Glance

ItemCategoryBest ForNotes
MinerUPDF/Image ExtractionMarkdown/JSON output for AI pipelinesAPI + CLI, local install can be heavy
  • AI 技术/GitHub/index
  • AI 技术/GitHub/Valuable AI Tools
  • AI 技术/General/Skill/skills.sh