🚀 Crawl4AI 0.4.2 更新:更智能的爬取变得更容易(2024 年 12 月 12 日)
嘿,开发人员,
我很高兴与大家分享 Crawl4AI 0.4.2 版本——这是一次重大升级,它使爬取更加智能、快速且更加直观。我添加了一系列新功能,旨在简化您的工作流程并提升您的体验。让我们开门见山!
🔧 可配置的浏览器和爬虫行为
您曾要求更好地控制浏览器和爬虫的配置方式,现在您已经实现了。有了新的BrowserConfig
和CrawlerRunConfig
对象,您可以根据自己的需要设置浏览器和抓取行为。不再混乱arun
带有十几个参数 - 只需传入您的配置即可。
例子:
from crawl4ai import BrowserConfig, CrawlerRunConfig, AsyncWebCrawler
browser_config = BrowserConfig(headless=True, viewport_width=1920, viewport_height=1080)
crawler_config = CrawlerRunConfig(cache_mode="BYPASS")
async with AsyncWebCrawler(config=browser_config) as crawler:
result = await crawler.arun(url="https://example.com", config=crawler_config)
print(result.markdown[:500])
这种设置改变了可扩展性,使我们在未来添加更多参数时,能够保持代码的干净和灵活。
记住:如果你喜欢使用旧方法,你仍然可以直接将参数传递给arun
和以前一样,不用担心!
🔐 简化的会话管理
重点来了:现在您可以直接传递本地存储和 Cookie。无论是通过编程设置值,还是导入已保存的 JSON 状态,会话管理都变得前所未有的轻松。这对于经过身份验证的爬取来说至关重要——只需导出一次存储状态,即可在多次运行中轻松重复使用。
示例:1. 打开浏览器,手动登录,导出存储状态。2. 导入 JSON 文件,实现无缝认证爬取:
result = await crawler.arun(
url="https://example.com/protected",
storage_state="my_storage_state.json"
)
🔢 处理大页面:增强截图和 PDF 转换
这里有两项重大升级:
- 极速长页面截图:轻松将超长网页转换成清晰、高质量的截图。它经过优化,可轻松处理大内容,且不会出现延迟。
- 导出整页 PDF:现在,您可以将任意页面转换为保留所有细节的 PDF。非常适合存档或共享复杂的布局。
🔧 其他酷炫的东西
- 反机器人增强功能:魔法模式现在可以像专业人士一样处理覆盖、用户模拟和反检测功能。
- JavaScript 执行:执行自定义 JS 代码片段来处理动态内容。无需再为无休止的页面交互而苦恼。
📊 性能提升和开发者友好更新
- 更快的渲染和视口调整以获得更好的性能。
- 改进 cookie 和本地存储处理,实现无缝身份验证。
- 通过详细的日志和可操作的错误消息进行更好的调试。
🔠 您会喜欢的用例
1. 身份验证抓取:登录一次,导出存储状态,即可在多个请求中重复使用,轻松便捷。2. 长页面截图:适用于博客、电商页面或任何需要无限滚动的网站。3. PDF 导出:几秒钟内即可创建专业的页面 PDF。
让我们开始爬行
Crawl4AI 0.4.2 现已开放下载试用。我一直在不断探索改进方法,所以请随时分享您的想法和反馈。
爬行快乐!🚀