0.4.2 - Crawl4AI 文档（v0.7.x）

🚀 Crawl4AI 0.4.2 更新：更智能的爬取变得更容易（2024 年 12 月 12 日）

嘿，开发人员，

我很高兴与大家分享 Crawl4AI 0.4.2 版本——这是一次重大升级，它使爬取更加智能、快速且更加直观。我添加了一系列新功能，旨在简化您的工作流程并提升您的体验。让我们开门见山！

🔧 可配置的浏览器和爬虫行为

您曾要求更好地控制浏览器和爬虫的配置方式，现在您已经实现了。有了新的BrowserConfig和CrawlerRunConfig对象，您可以根据自己的需要设置浏览器和抓取行为。不再混乱arun带有十几个参数 - 只需传入您的配置即可。

例子：

from crawl4ai import BrowserConfig, CrawlerRunConfig, AsyncWebCrawler

browser_config = BrowserConfig(headless=True, viewport_width=1920, viewport_height=1080)
crawler_config = CrawlerRunConfig(cache_mode="BYPASS")

async with AsyncWebCrawler(config=browser_config) as crawler:
    result = await crawler.arun(url="https://example.com", config=crawler_config)
    print(result.markdown[:500])

这种设置改变了可扩展性，使我们在未来添加更多参数时，能够保持代码的干净和灵活。

记住：如果你喜欢使用旧方法，你仍然可以直接将参数传递给arun和以前一样，不用担心！

🔐 简化的会话管理

重点来了：现在您可以直接传递本地存储和 Cookie。无论是通过编程设置值，还是导入已保存的 JSON 状态，会话管理都变得前所未有的轻松。这对于经过身份验证的爬取来说至关重要——只需导出一次存储状态，即可在多次运行中轻松重复使用。

示例：1. 打开浏览器，手动登录，导出存储状态。2. 导入 JSON 文件，实现无缝认证爬取：

result = await crawler.arun(
    url="https://example.com/protected",
    storage_state="my_storage_state.json"
)

🔢 处理大页面：增强截图和 PDF 转换

这里有两项重大升级：

极速长页面截图：轻松将超长网页转换成清晰、高质量的截图。它经过优化，可轻松处理大内容，且不会出现延迟。
导出整页 PDF：现在，您可以将任意页面转换为保留所有细节的 PDF。非常适合存档或共享复杂的布局。

🔧 其他酷炫的东西

反机器人增强功能：魔法模式现在可以像专业人士一样处理覆盖、用户模拟和反检测功能。
JavaScript 执行：执行自定义 JS 代码片段来处理动态内容。无需再为无休止的页面交互而苦恼。

📊 性能提升和开发者友好更新

更快的渲染和视口调整以获得更好的性能。
改进 cookie 和本地存储处理，实现无缝身份验证。
通过详细的日志和可操作的错误消息进行更好的调试。

🔠 您会喜欢的用例

1. 身份验证抓取：登录一次，导出存储状态，即可在多个请求中重复使用，轻松便捷。2. 长页面截图：适用于博客、电商页面或任何需要无限滚动的网站。3. PDF 导出：几秒钟内即可创建专业的页面 PDF。

让我们开始爬行

Crawl4AI 0.4.2 现已开放下载试用。我一直在不断探索改进方法，所以请随时分享您的想法和反馈。

爬行快乐！🚀