MCP Catalogs
首页Scrapling screenshot

Scrapling

by D4Vinci·50,346·综合分 62

自适应网页抓取框架,具备解析能力和反爬虫功能,现已集成为 MCP 服务器。

web-scrapingai-llmdeveloper-tools
4,765
Forks
5
活跃 Issue
本月
最近提交
2 天前
收录于

概述

Scrapling 是一个全面的网页抓取框架,现已扩展为 MCP 服务器,允许集成到 AI 工作流程中。它具有自适应解析功能,可以从网站变更中学习并自动重新定位元素,提供可绕过 Cloudflare Turnstile 等反机器人系统的高级获取器,以及可扩展的蜘蛛框架,支持并发多会话抓取。MCP 集成使用户能够通过标准化工具调用直接在 AI 环境中利用这些网页抓取功能。

试试问 AI

装完之后,这里有 5 个你可以让 AI 做的事:

:从具有动态布局变化的网站提取结构化数据
:自动代理轮换和反爬虫绕过的大规模网页爬取
:将网页抓取功能集成到 AI 工作流中
:Scrapling 支持 JavaScript 渲染的网站吗?
:自适应解析如何工作?

什么时候选它

当您需要处理频繁更改的网站或在 AI 工作流中需要强大的反机器人绕过功能时,选择 Scrapling 进行自适应网页抓取。

什么时候不要选它

如果您需要抓取明确禁止抓取的网站,或者需要支持具有复杂客户端渲染的 JavaScript 重型应用程序,请不要选择 Scrapling。

此 server 暴露的工具

从 README 抽取出 5 个工具
  • fetch

    Fetch website content using different fetcher types

  • css

    Parse HTML content using CSS selectors

  • start

    Start a web scraping spider

  • adaptive

    Enable adaptive parsing for element selection

  • auto_save

    Automatically save scraped data

说明:Tool names inferred from Python code examples and documentation, but no explicit MCP tool section was found

可对比工具

browserless-mcppuppeteer-mcpplaywright-mcpbeautifulsouprequests-html

安装

安装 Scrapling MCP 服务器

  1. 通过 pip 安装 Scrapling 包:

``bash pip install scrapling ``

  1. 配置您的 MCP 客户端以使用 Scrapling 服务器。对于 Claude Desktop,添加到 claude_desktop_config.json

``json { "mcpServers": { "scrapling": { "command": "python", "args": ["-m", "scrapling", "mcp"] } } } ``

FAQ

Scrapling 支持 JavaScript 渲染的网站吗?
是的,通过其 DynamicFetcher 和 StealthyFetcher 可以处理 JavaScript 执行和现代反机器人措施。
自适应解析如何工作?
Scrapling 的解析器可以从网站变更中学习,并在页面结构更新时自动重新定位元素,维护您的抓取选择器。

Hacker News 讨论

开发者社区最近的相关讨论。

Scrapling 对比

GitHub →

最后更新于 · 由 README + GitHub 公开数据自动生成。