Crawl4AI v0.6.0 发行说明
我们非常高兴地宣布 Crawl4AI v0.6.0 正式发布,这是我们迄今为止规模最大、功能最丰富的更新。此版本引入了重大的架构升级、全新的地理感知爬取功能、高效的数据抓取以及可扩展部署所需的实时流式传输支持。
亮点
1. 世界感知爬虫
像身处世界任何地方一样进行爬取。在 v0.6.0 版本中,每次爬取都可以模拟:- 特定的 GPS 坐标 - 浏览器语言环境 - 时区
例子:
CrawlerRunConfig(
url="https://browserleaks.com/geo",
locale="en-US",
timezone_id="America/Los_Angeles",
geolocation=GeolocationConfig(
latitude=34.0522,
longitude=-118.2437,
accuracy=10.0
)
)
2. 原生表提取
无需任何解析,即可将 HTML 表格直接提取为 Pandas DataFrames 或 CSV 等可用格式。所有表格数据均可在result.media["tables"]
。
例子:
raw_df = pd.DataFrame(
result.media["tables"][0]["rows"],
columns=result.media["tables"][0]["headers"]
)
3. 浏览器池和预热
我们彻底革新了浏览器管理。现在,您可以池化多个浏览器实例,并预热页面以实现超快速启动:- 降低冷启动延迟 - 降低内存峰值 - 增强并行抓取稳定性
这为新的 Docker Playground 体验提供了动力并简化了重负载爬行。
4. 流量和快照捕获
需要全面洞察?现在您可以捕获:- 完整的网络流量日志 - 控制台输出 - MHTML 页面快照,用于爬取后审核和调试
无需再猜测爬行过程中发生了什么。
5. MCP API 和流媒体支持
我们正在公开 MCP 套接字和 SSE 端点,从而允许:- 实时流式传输爬取结果 - 与代理或前端实时集成 - 用于交互式爬取的新 Playground UI
这是使 Crawl4AI 实时就绪的重要一步。
6.压力测试框架
想要测试高负载下的性能?v0.6.0 包含一个全新的内存压力测试套件,支持 1,000 多个 URL 工作负载。非常适合:- 负载测试 - 性能基准测试 - 验证内存效率
核心改进
- Robots.txt 合规性
- 代理轮换支持
- 改进的 URL 规范化和会话重用
- 跨爬虫钩子共享数据
- 新的页面路由逻辑
重大变更和弃用
- 遗产
crawl4ai/browser/*
模块已被删除。请相应地更新导入。 - 现在使用新的函数签名。
- 弃用的 Markdown 生成器别名现在指向
DefaultMarkdownGenerator
并发出警告。
其他更新
- FastAPI 验证器取代了自定义验证逻辑
- Docker 构建现在基于 Chromium 层
- 整个仓库的清理:约 36,000 次插入,约 5,000 次删除
包含新示例
- 地理位置爬取
- 网络+控制台日志捕获
- Docker MCP API 使用
- Markdown 选择器使用
- 加密项目数据提取
观看发布视频
想快速了解所有这些更新吗?观看视频:🔗 https://youtu.be/9x7nVcjOZks
如果您是 Crawl4AI 的新手,请从这里开始:🔗 https://www.youtube.com/watch?v=xo3qK6Hg9AA&t=15s
加入社区
我们刚刚开放了 Discord 供大家使用。加入我们可以:- 提问 - 分享你的项目 - 获取帮助或贡献
💬 https://discord.gg/wpYFACrHR4
安装或升级
长寿并导入 crawl4ai。🖖