webclaw
by 0xMassi·★ 1,155·综合分 55
基于 Rust 的快速本地优先网页内容提取工具,具有为 AI 代理设计的 MCP 服务器。
概述
WebClaw 是一个全面的网页抓取工具,可以从网站提取干净的内容并将其转换为 Markdown、JSON 和 LLM 就绪的格式。它使用 Rust 构建,具有高性能,同时提供本地处理功能和托管 API 选项。该项目提供了多种接口,包括 CLI、REST API 和直接与 AI 代理集成的 MCP 服务器。其架构将核心提取逻辑与获取层分离,为不同用例提供灵活性,同时保持高性能。
试试问 AI
装完之后,这里有 5 个你可以让 AI 做的事:
什么时候选它
当你需要可靠的、干净的网页内容提取来支持 AI 代理时,选择 WebClaw,特别是当你偏好本地优先处理并需要多种输出格式(Markdown、JSON、LLM 就绪文本)时。
什么时候不要选它
如果你需要渲染 JavaScript 重型网站(需要云 API)或需要不同于 AGPL-3.0 的许可进行商业再分发,不要选择 WebClaw。
此 server 暴露的工具
从 README 抽取出 10 个工具scrapeExtract one URL as markdown, text, JSON, LLM format, or HTML
crawlFollow same-origin links and extract discovered pages
mapDiscover URLs without extracting every page
batchScrape multiple URLs in parallel
extractConvert page content into structured data
summarizeSummarize a page
diffCompare page content snapshots
brandExtract colors, fonts, logos, and metadata
searchSearch the web and scrape results
researchMulti-source research workflow
可对比工具
安装
安装选项
**代理设置(推荐)**
npx create-webclaw**Homebrew**
brew tap 0xMassi/webclaw
brew install webclaw**Cargo**
cargo install --git https://github.com/0xMassi/webclaw.git webclaw-mcp
cargo install --git https://github.com/0xMassi/webclaw.git webclaw-cli**Claude Desktop 配置**
{
"mcpServers": {
"webclaw": {
"command": "~/.webclaw/webclaw-mcp"
}
}
}FAQ
- WebClaw 是否需要 API 密钥才能进行基本使用?
- 不需要,CLI 和 MCP 服务器可以在本地使用,无需账户即可进行核心提取。仅在使用托管服务时才需要 API 密钥。
- WebClaw 能否处理 JavaScript 渲染的内容?
- 本地版本不执行 JavaScript,但当需要时,webclaw.io 的托管 API 可以处理动态内容。
webclaw 对比
最后更新于 · 由 README + GitHub 公开数据自动生成。