pdf-mcp

Name: pdf-mcp
Rating: 2.4 (35 reviews)
Author: jztan

by jztan·★ 35·综合分 47

MCP 服务器让 AI 智能体能够分块读取、混合搜索、OCR 识别并提取 PDF 内容，使用 SQLite 缓存提高性能。

ai-llmfile-systemdeveloper-tools

Forks

活跃 Issue

2 个月前

概述

pdf-mcp 是基于 Python 和 PyMuPDF 构建的专业 MCP 服务器，为 AI 智能体提供高效的 PDF 内容访问功能。它通过允许智能体读取特定页面或范围，而非加载整个文档，解决了上下文窗口限制问题。服务器实现了混合搜索，结合 BM25 关键字和通过倒排等级融合(RRF)的语义搜索，具备扫描文档的 OCR 功能、表格和图像的结构化提取，以及基于 SQLite 的持久缓存。它具备强大的安全性，采用仅 HTTPS 的 URL 获取和 SSRF 防护。

试试问 AI

装完之后，这里有 5 个你可以让 AI 做的事：

你:总结大型 PDF 文档（如年度报告或研究论文）而不会超出上下文限制

你:从技术文档或法律合同中搜索和提取特定信息

你:使用 OCR 功能处理扫描文档以进行全文搜索和内容提取

你:pdf-mcp 如何处理大型 PDF 文档？

你:pdf-mcp 提供哪些搜索功能？

什么时候选它

当您需要为AI代理提供全面的PDF处理功能时，特别是对于需要分块阅读、混合搜索和OCR支持的大文档时，选择pdf-mcp。

什么时候不要选它

如果您需要加密PDF支持、实时协作PDF编辑或超出图像范围的高级多媒体处理功能，不要选择pdf-mcp。

此 server 暴露的工具

从 README 抽取出 8 个工具

pdf_info
Page count, metadata, TOC summary, scanned-page detection. Call first.
pdf_get_toc
Full table of contents for documents with >50 bookmarks
pdf_read_pages
Read specific pages or ranges; OCR-on-demand; embedded images + tables
pdf_read_all
Read entire document in one call (byte-capped for safety)
pdf_render_pages
Render pages as PNG for vision models — diagrams, handwriting, scans
pdf_search
Hybrid RRF search (keyword + semantic), page or section granularity
pdf_cache_stats
Per-document cache breakdown + total size
pdf_cache_clear
Clear expired or all cache entries

可对比工具

file-system-mcpdocument-extraction-mcppdf2txtpymupdf

安装

pip install pdf-mcp

对于 Claude Desktop，添加到 claude_desktop_config.json：

{
  "mcpServers": {
    "pdf-mcp": {
      "command": "pdf-mcp"
    }
  }
}

FAQ

pdf-mcp 如何处理大型 PDF 文档？: pdf-mcp 使用分块读取功能，允许 AI 智能体读取特定页面或页面范围，而不是加载整个文档，从而防止上下文溢出问题。
pdf-mcp 提供哪些搜索功能？: pdf-mcp 使用倒排等级融合(RRF)结合 BM25 关键字搜索和语义搜索，提供更全面的文档查询能力。

pdf-mcp 对比

pdf-mcp vs ultimate_mcp_server pdf-mcp vs mcp-server-chart pdf-mcp vs everything pdf-mcp vs filesystem pdf-mcp vs time

GitHub →

最后更新于 2026-05-17 · 由 README + GitHub 公开数据自动生成。