MCP Catalogs
首页webclaw screenshot

webclaw

by 0xMassi·1,155·综合分 55

基于 Rust 的快速本地优先网页内容提取工具,具有为 AI 代理设计的 MCP 服务器。

web-scrapingai-llmdeveloper-tools
137
Forks
0
活跃 Issue
本月
最近提交
2 天前
收录于

概述

WebClaw 是一个全面的网页抓取工具,可以从网站提取干净的内容并将其转换为 Markdown、JSON 和 LLM 就绪的格式。它使用 Rust 构建,具有高性能,同时提供本地处理功能和托管 API 选项。该项目提供了多种接口,包括 CLI、REST API 和直接与 AI 代理集成的 MCP 服务器。其架构将核心提取逻辑与获取层分离,为不同用例提供灵活性,同时保持高性能。

试试问 AI

装完之后,这里有 5 个你可以让 AI 做的事:

:AI 代理网页访问,获取干净的页面内容
:从文档网站进行 RAG 摄入
:竞争对手监控和内容分析
:WebClaw 是否需要 API 密钥才能进行基本使用?
:WebClaw 能否处理 JavaScript 渲染的内容?

什么时候选它

当你需要可靠的、干净的网页内容提取来支持 AI 代理时,选择 WebClaw,特别是当你偏好本地优先处理并需要多种输出格式(Markdown、JSON、LLM 就绪文本)时。

什么时候不要选它

如果你需要渲染 JavaScript 重型网站(需要云 API)或需要不同于 AGPL-3.0 的许可进行商业再分发,不要选择 WebClaw。

此 server 暴露的工具

从 README 抽取出 10 个工具
  • scrape

    Extract one URL as markdown, text, JSON, LLM format, or HTML

  • crawl

    Follow same-origin links and extract discovered pages

  • map

    Discover URLs without extracting every page

  • batch

    Scrape multiple URLs in parallel

  • extract

    Convert page content into structured data

  • summarize

    Summarize a page

  • diff

    Compare page content snapshots

  • brand

    Extract colors, fonts, logos, and metadata

  • search

    Search the web and scrape results

  • research

    Multi-source research workflow

可对比工具

firecrawlscrape-doctorperplexity-parsereadability-api

安装

安装选项

**代理设置(推荐)**

npx create-webclaw

**Homebrew**

brew tap 0xMassi/webclaw
brew install webclaw

**Cargo**

cargo install --git https://github.com/0xMassi/webclaw.git webclaw-mcp
cargo install --git https://github.com/0xMassi/webclaw.git webclaw-cli

**Claude Desktop 配置**

{
  "mcpServers": {
    "webclaw": {
      "command": "~/.webclaw/webclaw-mcp"
    }
  }
}

FAQ

WebClaw 是否需要 API 密钥才能进行基本使用?
不需要,CLI 和 MCP 服务器可以在本地使用,无需账户即可进行核心提取。仅在使用托管服务时才需要 API 密钥。
WebClaw 能否处理 JavaScript 渲染的内容?
本地版本不执行 JavaScript,但当需要时,webclaw.io 的托管 API 可以处理动态内容。

webclaw 对比

GitHub →

最后更新于 · 由 README + GitHub 公开数据自动生成。