Scrapling
by D4Vinci·★ 50,346·综合分 62
自适应网页抓取框架,具备解析能力和反爬虫功能,现已集成为 MCP 服务器。
概述
Scrapling 是一个全面的网页抓取框架,现已扩展为 MCP 服务器,允许集成到 AI 工作流程中。它具有自适应解析功能,可以从网站变更中学习并自动重新定位元素,提供可绕过 Cloudflare Turnstile 等反机器人系统的高级获取器,以及可扩展的蜘蛛框架,支持并发多会话抓取。MCP 集成使用户能够通过标准化工具调用直接在 AI 环境中利用这些网页抓取功能。
试试问 AI
装完之后,这里有 5 个你可以让 AI 做的事:
什么时候选它
当您需要处理频繁更改的网站或在 AI 工作流中需要强大的反机器人绕过功能时,选择 Scrapling 进行自适应网页抓取。
什么时候不要选它
如果您需要抓取明确禁止抓取的网站,或者需要支持具有复杂客户端渲染的 JavaScript 重型应用程序,请不要选择 Scrapling。
此 server 暴露的工具
从 README 抽取出 5 个工具fetchFetch website content using different fetcher types
cssParse HTML content using CSS selectors
startStart a web scraping spider
adaptiveEnable adaptive parsing for element selection
auto_saveAutomatically save scraped data
说明:Tool names inferred from Python code examples and documentation, but no explicit MCP tool section was found
可对比工具
安装
安装 Scrapling MCP 服务器
- 通过 pip 安装 Scrapling 包:
``bash pip install scrapling ``
- 配置您的 MCP 客户端以使用 Scrapling 服务器。对于 Claude Desktop,添加到
claude_desktop_config.json:
``json { "mcpServers": { "scrapling": { "command": "python", "args": ["-m", "scrapling", "mcp"] } } } ``
FAQ
- Scrapling 支持 JavaScript 渲染的网站吗?
- 是的,通过其 DynamicFetcher 和 StealthyFetcher 可以处理 JavaScript 执行和现代反机器人措施。
- 自适应解析如何工作?
- Scrapling 的解析器可以从网站变更中学习,并在页面结构更新时自动重新定位元素,维护您的抓取选择器。
Hacker News 讨论
开发者社区最近的相关讨论。
- 帖子 by d4vinci · 2024-10-13
- 帖子 by d4vinci · 2025-04-30
Scrapling 对比
最后更新于 · 由 README + GitHub 公开数据自动生成。