Crawl4AI v0.6.0 发行说明

我们非常高兴地宣布 Crawl4AI v0.6.0 正式发布，这是我们迄今为止规模最大、功能最丰富的更新。此版本引入了重大的架构升级、全新的地理感知爬取功能、高效的数据抓取以及可扩展部署所需的实时流式传输支持。

亮点

1. 世界感知爬虫

像身处世界任何地方一样进行爬取。在 v0.6.0 版本中，每次爬取都可以模拟：- 特定的 GPS 坐标 - 浏览器语言环境 - 时区

例子：

CrawlerRunConfig(
    url="https://browserleaks.com/geo",
    locale="en-US",
    timezone_id="America/Los_Angeles",
    geolocation=GeolocationConfig(
        latitude=34.0522,
        longitude=-118.2437,
        accuracy=10.0
    )
)

Great for accessing region-specific content or testing global behavior.

2. 原生表提取

无需任何解析，即可将 HTML 表格直接提取为 Pandas DataFrames 或 CSV 等可用格式。所有表格数据均可在result.media["tables"]。

例子：

raw_df = pd.DataFrame(
    result.media["tables"][0]["rows"],
    columns=result.media["tables"][0]["headers"]
)

This makes it ideal for scraping financial data, pricing pages, or anything tabular.

3. 浏览器池和预热

我们彻底革新了浏览器管理。现在，您可以池化多个浏览器实例，并预热页面以实现超快速启动：- 降低冷启动延迟 - 降低内存峰值 - 增强并行抓取稳定性

这为新的 Docker Playground 体验提供了动力并简化了重负载爬行。

4. 流量和快照捕获

需要全面洞察？现在您可以捕获：- 完整的网络流量日志 - 控制台输出 - MHTML 页面快照，用于爬取后审核和调试

无需再猜测爬行过程中发生了什么。

5. MCP API 和流媒体支持

我们正在公开 MCP 套接字和 SSE 端点，从而允许：- 实时流式传输爬取结果 - 与代理或前端实时集成 - 用于交互式爬取的新 Playground UI

这是使 Crawl4AI 实时就绪的重要一步。

6.压力测试框架

想要测试高负载下的性能？v0.6.0 包含一个全新的内存压力测试套件，支持 1,000 多个 URL 工作负载。非常适合：- 负载测试 - 性能基准测试 - 验证内存效率

核心改进

Robots.txt 合规性
代理轮换支持
改进的 URL 规范化和会话重用
跨爬虫钩子共享数据
新的页面路由逻辑

重大变更和弃用

遗产crawl4ai/browser/*模块已被删除。请相应地更新导入。
现在使用新的函数签名。
弃用的 Markdown 生成器别名现在指向DefaultMarkdownGenerator并发出警告。

其他更新

FastAPI 验证器取代了自定义验证逻辑
Docker 构建现在基于 Chromium 层
整个仓库的清理：约 36,000 次插入，约 5,000 次删除

包含新示例

地理位置爬取
网络+控制台日志捕获
Docker MCP API 使用
Markdown 选择器使用
加密项目数据提取

观看发布视频

想快速了解所有这些更新吗？观看视频：🔗 https://youtu.be/9x7nVcjOZks

如果您是 Crawl4AI 的新手，请从这里开始：🔗 https://www.youtube.com/watch?v=xo3qK6Hg9AA&t=15s

加入社区

我们刚刚开放了 Discord 供大家使用。加入我们可以：- 提问 - 分享你的项目 - 获取帮助或贡献

💬 https://discord.gg/wpYFACrHR4

安装或升级

pip install -U crawl4ai

长寿并导入 crawl4ai。🖖