🚀 Crawl4AI 0.4.2 更新:更智能的爬取变得更容易(2024 年 12 月 12 日)

嘿,开发人员,

我很高兴与大家分享 Crawl4AI 0.4.2 版本——这是一次重大升级,它使爬取更加智能、快速且更加直观。我添加了一系列新功能,旨在简化您的工作流程并提升您的体验。让我们开门见山!


🔧 可配置的浏览器和爬虫行为

您曾要求更好地控制浏览器和爬虫的配置方式,现在您已经实现了。有了新的BrowserConfigCrawlerRunConfig对象,您可以根据自己的需要设置浏览器和抓取行为。不再混乱arun带有十几个参数 - 只需传入您的配置即可。

例子:

from crawl4ai import BrowserConfig, CrawlerRunConfig, AsyncWebCrawler

browser_config = BrowserConfig(headless=True, viewport_width=1920, viewport_height=1080)
crawler_config = CrawlerRunConfig(cache_mode="BYPASS")

async with AsyncWebCrawler(config=browser_config) as crawler:
    result = await crawler.arun(url="https://example.com", config=crawler_config)
    print(result.markdown[:500])

这种设置改变了可扩展性,使我们在未来添加更多参数时,能够保持代码的干净和灵活。

记住:如果你喜欢使用旧方法,你仍然可以直接将参数传递给arun和以前一样,不用担心!


🔐 简化的会话管理

重点来了:现在您可以直接传递本地存储和 Cookie。无论是通过编程设置值,还是导入已保存的 JSON 状态,会话管理都变得前所未有的轻松。这对于经过身份验证的爬取来说至关重要——只需导出一次存储状态,即可在多次运行中轻松重复使用。

示例:1. 打开浏览器,手动登录,导出存储状态。2. 导入 JSON 文件,实现无缝认证爬取:

result = await crawler.arun(
    url="https://example.com/protected",
    storage_state="my_storage_state.json"
)

🔢 处理大页面:增强截图和 PDF 转换

这里有两项重大升级:

  • 极速长页面截图:轻松将超长网页转换成清晰、高质量的截图。它经过优化,可轻松处理大内容,且不会出现延迟。
  • 导出整页 PDF:现在,您可以将任意页面转换为保留所有细节的 PDF。非常适合存档或共享复杂的布局。

🔧 其他酷炫的东西

  • 反机器人增强功能:魔法模式现在可以像专业人士一样处理覆盖、用户模拟和反检测功能。
  • JavaScript 执行:执行自定义 JS 代码片段来处理动态内容。无需再为无休止的页面交互而苦恼。

📊 性能提升和开发者友好更新

  • 更快的渲染和视口调整以获得更好的性能。
  • 改进 cookie 和本地存储处理,实现无缝身份验证。
  • 通过详细的日志和可操作的错误消息进行更好的调试。

🔠 您会喜欢的用例

1. 身份验证抓取:登录一次,导出存储状态,即可在多个请求中重复使用,轻松便捷。2. 长页面截图:适用于博客、电商页面或任何需要无限滚动的网站。3. PDF 导出:几秒钟内即可创建专业的页面 PDF。


让我们开始爬行

Crawl4AI 0.4.2 现已开放下载试用。我一直在不断探索改进方法,所以请随时分享您的想法和反馈。

爬行快乐!🚀


> Feedback