MCP-PDF-Extractor-server

Name: MCP-PDF-Extractor-server
Rating: 1.6 (1 reviews)
Author: RayenMalouche

by RayenMalouche·★ 0·综合分 33

使用 Apache Tika 从 PDF、DOCX 等文档中提取内容和元数据的 Java MCP 服务器。

file-systemdeveloper-toolsai-llm

Forks

活跃 Issue

11 个月前

概述

Tika MCP 提取服务器是一个全面的 Java 实现，提供符合 MCP 协议的文档提取工具。它支持多种格式，包括 PDF、DOCX、TXT、HTML 和图像，将内容转换为带有嵌入 CSS 的 HTML 或纯文本。服务器提供四个主要工具：extract-to-html、extract-text、list-available-files 和 get-file-metadata，同时保持健壮的错误处理和全面的日志记录。使用 Spring Boot 和 Jetty 构建，它既提供 MCP 协议合规性，也提供用于测试和集成的 REST 端点。

试试问 AI

装完之后，这里有 6 个你可以让 AI 做的事：

你:在无需互联网访问的安全环境中处理和提取本地文档内容

你:将文档提取功能集成到 Claude Desktop 等 MCP 启用的 AI 助手中

你:为 Web 应用程序提供 REST API，以从文档文件提供样式化的 HTML 内容

你:支持哪些文件格式？

你:我可以在没有互联网访问的情况下使用此服务器吗？

你:如何添加自定义 Tika 配置？

什么时候选它

选择此服务器用于本地文档处理工作流，需要在无需向外部服务暴露文档的情况下提取内容和元数据。

什么时候不要选它

如果您需要基于云的处理或已经建立了其他语言（如 Python）的基础设施，请避免使用。

此 server 暴露的工具

从 README 抽取出 4 个工具

extract-to-html
Converts file content to HTML with embedded CSS styling
extract-text
Extracts plain text content from files
list-available-files
Lists files in the extraction directory with details
get-file-metadata
Retrieves detailed metadata from files like title, author, creation date

可对比工具

file-mcpdocument-extractor-servermcp-server-tika

安装

安装步骤

**先决条件**：

- Java 23+ - Maven 3.6+

**克隆和设置**：

``bash git clone https://github.com/RayenMalouche/MCP-PDF-Extractor-server.git cd MCP-PDF-Extractor-server mkdir files-to-extract mvn clean install ``

**配置**：

如需要，可编辑 src/main/resources/application.properties

**运行**：

```bash # HTTP/SSE 模式 mvn spring-boot:run

# STDIO 模式 mvn spring-boot:run -- --stdio ```

**配置 Claude Desktop**（用于 MCP 用法）：

添加到您的 claude_desktop_config.json： ``json { "mcpServers": { "tika-extractor": { "command": "java", "args": ["-jar", "您的/target/TikaExtractorMCPServer-1.0.0.jar 路径", "--stdio"] } } } ``

FAQ

支持哪些文件格式？: 服务器通过 Apache Tika 的全面类型检测系统支持 PDF、DOCX、TXT、HTML、图像和许多其他格式。
我可以在没有互联网访问的情况下使用此服务器吗？: 是的，所有操作都是本地的，不需要互联网访问，使其适用于安全的文档处理工作流程。
如何添加自定义 Tika 配置？: 您可以在 `application.properties` 文件中修改 Tika 设置，或扩展 `ConfigLoader` 类进行更复杂的自定义。

MCP-PDF-Extractor-server 对比

MCP-PDF-Extractor-server vs ultimate_mcp_server MCP-PDF-Extractor-server vs mcp-server-chart MCP-PDF-Extractor-server vs everything MCP-PDF-Extractor-server vs filesystem MCP-PDF-Extractor-server vs time

GitHub →

最后更新于 2026-05-17 · 由 README + GitHub 公开数据自动生成。