MCP-PDF-Extractor-server
by RayenMalouche·★ 0·综合分 33
使用 Apache Tika 从 PDF、DOCX 等文档中提取内容和元数据的 Java MCP 服务器。
概述
Tika MCP 提取服务器是一个全面的 Java 实现,提供符合 MCP 协议的文档提取工具。它支持多种格式,包括 PDF、DOCX、TXT、HTML 和图像,将内容转换为带有嵌入 CSS 的 HTML 或纯文本。服务器提供四个主要工具:extract-to-html、extract-text、list-available-files 和 get-file-metadata,同时保持健壮的错误处理和全面的日志记录。使用 Spring Boot 和 Jetty 构建,它既提供 MCP 协议合规性,也提供用于测试和集成的 REST 端点。
试试问 AI
装完之后,这里有 6 个你可以让 AI 做的事:
什么时候选它
选择此服务器用于本地文档处理工作流,需要在无需向外部服务暴露文档的情况下提取内容和元数据。
什么时候不要选它
如果您需要基于云的处理或已经建立了其他语言(如 Python)的基础设施,请避免使用。
此 server 暴露的工具
从 README 抽取出 4 个工具extract-to-htmlConverts file content to HTML with embedded CSS styling
extract-textExtracts plain text content from files
list-available-filesLists files in the extraction directory with details
get-file-metadataRetrieves detailed metadata from files like title, author, creation date
可对比工具
安装
安装步骤
- **先决条件**:
- Java 23+ - Maven 3.6+
- **克隆和设置**:
``bash git clone https://github.com/RayenMalouche/MCP-PDF-Extractor-server.git cd MCP-PDF-Extractor-server mkdir files-to-extract mvn clean install ``
- **配置**:
如需要,可编辑 src/main/resources/application.properties
- **运行**:
```bash # HTTP/SSE 模式 mvn spring-boot:run
# STDIO 模式 mvn spring-boot:run -- --stdio ```
- **配置 Claude Desktop**(用于 MCP 用法):
添加到您的 claude_desktop_config.json: ``json { "mcpServers": { "tika-extractor": { "command": "java", "args": ["-jar", "您的/target/TikaExtractorMCPServer-1.0.0.jar 路径", "--stdio"] } } } ``
FAQ
- 支持哪些文件格式?
- 服务器通过 Apache Tika 的全面类型检测系统支持 PDF、DOCX、TXT、HTML、图像和许多其他格式。
- 我可以在没有互联网访问的情况下使用此服务器吗?
- 是的,所有操作都是本地的,不需要互联网访问,使其适用于安全的文档处理工作流程。
- 如何添加自定义 Tika 配置?
- 您可以在 `application.properties` 文件中修改 Tika 设置,或扩展 `ConfigLoader` 类进行更复杂的自定义。
MCP-PDF-Extractor-server 对比
最后更新于 · 由 README + GitHub 公开数据自动生成。