Crawl4AI v0.6.0 发行说明

我们非常高兴地宣布 Crawl4AI v0.6.0 正式发布,这是我们迄今为止规模最大、功能最丰富的更新。此版本引入了重大的架构升级、全新的地理感知爬取功能、高效的数据抓取以及可扩展部署所需的实时流式传输支持。


亮点

1. 世界感知爬虫

像身处世界任何地方一样进行爬取。在 v0.6.0 版本中,每次爬取都可以模拟:- 特定的 GPS 坐标 - 浏览器语言环境 - 时区

例子:

CrawlerRunConfig(
    url="https://browserleaks.com/geo",
    locale="en-US",
    timezone_id="America/Los_Angeles",
    geolocation=GeolocationConfig(
        latitude=34.0522,
        longitude=-118.2437,
        accuracy=10.0
    )
)
Great for accessing region-specific content or testing global behavior.


2. 原生表提取

无需任何解析,即可将 HTML 表格直接提取为 Pandas DataFrames 或 CSV 等可用格式。所有表格数据均可在result.media["tables"]

例子:

raw_df = pd.DataFrame(
    result.media["tables"][0]["rows"],
    columns=result.media["tables"][0]["headers"]
)
This makes it ideal for scraping financial data, pricing pages, or anything tabular.


3. 浏览器池和预热

我们彻底革新了浏览器管理。现在,您可以池化多个浏览器实例,并预热页面以实现超快速启动:- 降低冷启动延迟 - 降低内存峰值 - 增强并行抓取稳定性

这为新的 Docker Playground 体验提供了动力并简化了重负载爬行。


4. 流量和快照捕获

需要全面洞察?现在您可以捕获:- 完整的网络流量日志 - 控制台输出 - MHTML 页面快照,用于爬取后审核和调试

无需再猜测爬行过程中发生了什么。


5. MCP API 和流媒体支持

我们正在公开 MCP 套接字和 SSE 端点,从而允许:- 实时流式传输爬取结果 - 与代理或前端实时集成 - 用于交互式爬取的新 Playground UI

这是使 Crawl4AI 实时就绪的重要一步。


6.压力测试框架

想要测试高负载下的性能?v0.6.0 包含一个全新的内存压力测试套件,支持 1,000 多个 URL 工作负载。非常适合:- 负载测试 - 性能基准测试 - 验证内存效率


核心改进

  • Robots.txt 合规性
  • 代理轮换支持
  • 改进的 URL 规范化和会话重用
  • 跨爬虫钩子共享数据
  • 新的页面路由逻辑

重大变更和弃用

  • 遗产crawl4ai/browser/*模块已被删除。请相应地更新导入。
  • 现在使用新的函数签名。
  • 弃用的 Markdown 生成器别名现在指向DefaultMarkdownGenerator并发出警告。

其他更新

  • FastAPI 验证器取代了自定义验证逻辑
  • Docker 构建现在基于 Chromium 层
  • 整个仓库的清理:约 36,000 次插入,约 5,000 次删除

包含新示例

  • 地理位置爬取
  • 网络+控制台日志捕获
  • Docker MCP API 使用
  • Markdown 选择器使用
  • 加密项目数据提取

观看发布视频

想快速了解所有这些更新吗?观看视频:🔗 https://youtu.be/9x7nVcjOZks

如果您是 Crawl4AI 的新手,请从这里开始:🔗 https://www.youtube.com/watch?v=xo3qK6Hg9AA&t=15s


加入社区

我们刚刚开放了 Discord 供大家使用。加入我们可以:- 提问 - 分享你的项目 - 获取帮助或贡献

💬 https://discord.gg/wpYFACrHR4


安装或升级

pip install -U crawl4ai

长寿并导入 crawl4ai。🖖


> Feedback