MCP Catalogs
首页pdf-mcp screenshot

pdf-mcp

by jztan·35·综合分 47

MCP 服务器让 AI 智能体能够分块读取、混合搜索、OCR 识别并提取 PDF 内容,使用 SQLite 缓存提高性能。

ai-llmfile-systemdeveloper-tools
5
Forks
0
活跃 Issue
本月
最近提交
2 天前
收录于

概述

pdf-mcp 是基于 Python 和 PyMuPDF 构建的专业 MCP 服务器,为 AI 智能体提供高效的 PDF 内容访问功能。它通过允许智能体读取特定页面或范围,而非加载整个文档,解决了上下文窗口限制问题。服务器实现了混合搜索,结合 BM25 关键字和通过倒排等级融合(RRF)的语义搜索,具备扫描文档的 OCR 功能、表格和图像的结构化提取,以及基于 SQLite 的持久缓存。它具备强大的安全性,采用仅 HTTPS 的 URL 获取和 SSRF 防护。

试试问 AI

装完之后,这里有 5 个你可以让 AI 做的事:

:总结大型 PDF 文档(如年度报告或研究论文)而不会超出上下文限制
:从技术文档或法律合同中搜索和提取特定信息
:使用 OCR 功能处理扫描文档以进行全文搜索和内容提取
:pdf-mcp 如何处理大型 PDF 文档?
:pdf-mcp 提供哪些搜索功能?

什么时候选它

当您需要为AI代理提供全面的PDF处理功能时,特别是对于需要分块阅读、混合搜索和OCR支持的大文档时,选择pdf-mcp。

什么时候不要选它

如果您需要加密PDF支持、实时协作PDF编辑或超出图像范围的高级多媒体处理功能,不要选择pdf-mcp。

此 server 暴露的工具

从 README 抽取出 8 个工具
  • pdf_info

    Page count, metadata, TOC summary, scanned-page detection. Call first.

  • pdf_get_toc

    Full table of contents for documents with >50 bookmarks

  • pdf_read_pages

    Read specific pages or ranges; OCR-on-demand; embedded images + tables

  • pdf_read_all

    Read entire document in one call (byte-capped for safety)

  • pdf_render_pages

    Render pages as PNG for vision models — diagrams, handwriting, scans

  • pdf_search

    Hybrid RRF search (keyword + semantic), page or section granularity

  • pdf_cache_stats

    Per-document cache breakdown + total size

  • pdf_cache_clear

    Clear expired or all cache entries

可对比工具

file-system-mcpdocument-extraction-mcppdf2txtpymupdf

安装

pip install pdf-mcp

对于 Claude Desktop,添加到 claude_desktop_config.json

{
  "mcpServers": {
    "pdf-mcp": {
      "command": "pdf-mcp"
    }
  }
}

FAQ

pdf-mcp 如何处理大型 PDF 文档?
pdf-mcp 使用分块读取功能,允许 AI 智能体读取特定页面或页面范围,而不是加载整个文档,从而防止上下文溢出问题。
pdf-mcp 提供哪些搜索功能?
pdf-mcp 使用倒排等级融合(RRF)结合 BM25 关键字搜索和语义搜索,提供更全面的文档查询能力。

pdf-mcp 对比

GitHub →

最后更新于 · 由 README + GitHub 公开数据自动生成。