MCP Catalogs
首页

MCP-PDF-Extractor-server

by RayenMalouche·0·综合分 33

使用 Apache Tika 从 PDF、DOCX 等文档中提取内容和元数据的 Java MCP 服务器。

file-systemdeveloper-toolsai-llm
0
Forks
0
活跃 Issue
9 个月前
最近提交
2 天前
收录于

概述

Tika MCP 提取服务器是一个全面的 Java 实现,提供符合 MCP 协议的文档提取工具。它支持多种格式,包括 PDF、DOCX、TXT、HTML 和图像,将内容转换为带有嵌入 CSS 的 HTML 或纯文本。服务器提供四个主要工具:extract-to-html、extract-text、list-available-files 和 get-file-metadata,同时保持健壮的错误处理和全面的日志记录。使用 Spring Boot 和 Jetty 构建,它既提供 MCP 协议合规性,也提供用于测试和集成的 REST 端点。

试试问 AI

装完之后,这里有 6 个你可以让 AI 做的事:

:在无需互联网访问的安全环境中处理和提取本地文档内容
:将文档提取功能集成到 Claude Desktop 等 MCP 启用的 AI 助手中
:为 Web 应用程序提供 REST API,以从文档文件提供样式化的 HTML 内容
:支持哪些文件格式?
:我可以在没有互联网访问的情况下使用此服务器吗?
:如何添加自定义 Tika 配置?

什么时候选它

选择此服务器用于本地文档处理工作流,需要在无需向外部服务暴露文档的情况下提取内容和元数据。

什么时候不要选它

如果您需要基于云的处理或已经建立了其他语言(如 Python)的基础设施,请避免使用。

此 server 暴露的工具

从 README 抽取出 4 个工具
  • extract-to-html

    Converts file content to HTML with embedded CSS styling

  • extract-text

    Extracts plain text content from files

  • list-available-files

    Lists files in the extraction directory with details

  • get-file-metadata

    Retrieves detailed metadata from files like title, author, creation date

可对比工具

file-mcpdocument-extractor-servermcp-server-tika

安装

安装步骤

  1. **先决条件**:

- Java 23+ - Maven 3.6+

  1. **克隆和设置**:

``bash git clone https://github.com/RayenMalouche/MCP-PDF-Extractor-server.git cd MCP-PDF-Extractor-server mkdir files-to-extract mvn clean install ``

  1. **配置**:

如需要,可编辑 src/main/resources/application.properties

  1. **运行**:

```bash # HTTP/SSE 模式 mvn spring-boot:run

# STDIO 模式 mvn spring-boot:run -- --stdio ```

  1. **配置 Claude Desktop**(用于 MCP 用法):

添加到您的 claude_desktop_config.json: ``json { "mcpServers": { "tika-extractor": { "command": "java", "args": ["-jar", "您的/target/TikaExtractorMCPServer-1.0.0.jar 路径", "--stdio"] } } } ``

FAQ

支持哪些文件格式?
服务器通过 Apache Tika 的全面类型检测系统支持 PDF、DOCX、TXT、HTML、图像和许多其他格式。
我可以在没有互联网访问的情况下使用此服务器吗?
是的,所有操作都是本地的,不需要互联网访问,使其适用于安全的文档处理工作流程。
如何添加自定义 Tika 配置?
您可以在 `application.properties` 文件中修改 Tika 设置,或扩展 `ConfigLoader` 类进行更复杂的自定义。

MCP-PDF-Extractor-server 对比

GitHub →

最后更新于 · 由 README + GitHub 公开数据自动生成。