
mcp-apache-spark-history-server
by kubeflow·★ 170·综合分 50
MCP 服务器将 AI 代理连接到 Apache Spark 历史服务器,用于作业分析和性能监控。
概述
这是一个双接口工具包,既为 AI 代理提供 MCP 服务器,也为工程师提供 CLI 工具来交互 Spark 历史服务器数据。MCP 服务器提供 21 个工具用于 Spark 应用程序调查,包括作业分析、阶段指标、执行器信息和 SQL 查询分析。它支持多个 Spark 历史服务器配置,并提供比较分析和性能瓶颈检测功能。该项目由 Kubeflow 积极维护,定期更新并拥有全面的文档。
试试问 AI
装完之后,这里有 5 个你可以让 AI 做的事:
什么时候选它
如果您使用 Apache Spark 并希望 AI 代理通过自然语言查询分析集群性能、调试应用程序或比较作业运行,请选择此 MCP server。
什么时候不要选它
如果您不使用 Apache Spark、需要实时流分析或需要访问非 Hadoop 生态系统的工具,请不要选择它。
此 server 暴露的工具
从 README 抽取出 12 个工具list_applicationsList applications with optional status, date, and limit filters
get_applicationGet application detail: status, resources, duration, attempts
list_jobsList jobs with status filtering
list_slowest_jobsTop N slowest jobs
list_stagesList stages with status filtering
get_stageStage detail with attempt and summary metrics
get_executorExecutor detail: resources, task stats, performance
get_sql_executionSQL execution detail with optional plan and node metrics
compare_job_performanceDiff performance metrics between two applications
get_job_bottlenecksIdentify bottlenecks across stages, tasks, and executors
aws_analyze_spark_workloadOne-shot root cause analysis of failed/slow Spark workloads
list_slowest_sql_queriesTop N slowest SQL executions with metrics
可对比工具
安装
使用 pip 安装:
pip install mcp-apache-spark-history-server
spark-mcp直接使用 uvx 运行(无需安装):
uvx --from mcp-apache-spark-history-server spark-mcp通过 config.yaml 配置(支持多个服务器):
servers:
local:
default: true
url: "http://your-spark-history-server:18080"
auth:
username: "user"
password: "pass"
mcp:
transports:
- streamable-http
port: "18888"Claude Desktop 配置:
{
"mcpServers": {
"spark": {
"command": "spark-mcp",
"args": []
}
}
}FAQ
- MCP 服务器和 CLI 工具有什么区别?
- MCP 服务器专为 AI 代理设计,使用自然语言与 Spark 历史服务器交互,而 CLI (shs) 是一个独立的 Go 二进制文件,用于直接终端访问、脚本和 CI/CD 管道。
- 是否支持 AWS EMR 和 Glue?
- 是的,该项目包含针对 AWS Glue 和 Amazon EMR 集成的具体示例,以及可选的 AWS Spark 故障排除功能,用于根本原因分析和代码建议。
mcp-apache-spark-history-server 对比
最后更新于 · 由 README + GitHub 公开数据自动生成。