Crawl4AI 博客

欢迎来到 Crawl4AI 博客!在这里,您可以找到详细的发行说明、技术见解以及项目的最新动态。无论您是想了解最新改进,还是想深入了解网络爬虫技术,这里都是您的理想之选。

何时停止爬行:了解“足够”的艺术

2025年1月29日

传统的爬虫就像时间无限的游客——它们会走遍每一条街道、每一条小巷、每一条死胡同。但如果您的爬虫能够像一位有最后期限的研究人员一样思考,会怎么样呢?探索自适应爬虫如何通过判断何时停止来彻底改变网页抓取。了解三层智能系统如何评估覆盖率、一致性和饱和度,从而构建专注的知识库,而不是无休止的页面集合。

阅读全文 →

LLM 上下文协议:为什么你的 AI 助手需要记忆、推理和示例

2025年1月24日

您是否想过,为什么您的 AI 编程助手即使拥有详尽的文档,仍然难以理解您的代码库?本文介绍了三维上下文协议,它彻底改变了 AI 理解代码的方式。了解为什么记忆、推理和示例共同创造了智慧,而不仅仅是信息。

阅读全文 →

最新版本

Crawl4AI v0.7.0 – 自适应智能更新

2025年1月28日

Crawl4AI v0.7.0 引入了突破性的智能功能,彻底改变了爬虫理解和适应网站的方式。此版本带来了:自适应爬取功能(可学习网站模式)、虚拟滚动(支持无限页面)、智能链接预览(具有三层评分)以及强大的异步 URL 播种器(用于大规模 URL 发现)。

主要亮点: - 自适应爬行:自动学习和适应网站结构的爬虫 - 虚拟滚动支持:从现代无限滚动页面中提取完整内容 - 链接预览:用于智能链接优先级的 3 层评分系统 - 异步 URL 播种机:通过智能过滤在几秒钟内发现数千个 URL - 性能提升:通过优化的资源处理,速度最高可提高 3 倍

阅读完整发行说明 →


先前版本

Crawl4AI v0.6.0 – 全球感知爬取、预热浏览器和 MCP API

2024年12月23日

Crawl4AI v0.6.0 带来了重大的架构升级,包括全球感知爬取(设置地理位置、语言环境和时区)、实时流量捕获以及带有预热页面的内存高效爬取器池。

Docker 服务器现已开放功能齐全的 MCP 套接字 + SSE 接口,支持流式传输,并配备了全新的 Playground UI。此外,表格提取现已原生支持,新的压力测试框架支持抓取 1,000 多个 URL。

其他主要变化:

  • 本机支持result.media["tables"]导出 DataFrames
  • 每次抓取的完整网络 + 控制台日志和 MHTML 快照
  • 浏览器池和预热以实现更快的冷启动
  • 通过 MCP API 和 Playground 提供新的流媒体端点
  • Robots.txt 支持、代理轮换和改进的会话处理
  • 弃用旧的 Markdown 名称,清理遗留模块
  • 大规模 repo 清理:在 121 个文件中插入约 36,000 条数据,删除约 5,000 条数据

阅读完整发行说明 →


Crawl4AI v0.5.0:深度爬行、可扩展性和新的 CLI!

亲爱的爬虫朋友们,Crawl4AI v0.5.0 正式发布啦!此版本带来了丰富的新功能、性能提升以及更流畅的开发者体验。以下是新功能的详细介绍:

主要新功能:

  • 深度爬取:使用可配置策略(广度优先、深度优先、最佳优先)探索整个网站。自定义过滤器和 URL 评分,实现定向爬取。
  • 内存自适应调度器:轻松处理大规模爬取!我们的新调度器会根据可用内存动态调整并发度,并内置速率限制功能。
  • 多种爬虫策略:在功能齐全的基于 Playwright 浏览器的爬虫或新的、速度更快的仅限 HTTP 的爬虫之间进行选择,以完成更简单的任务。
  • Docker 部署:将 Crawl4AI 部署为可扩展的、独立的服务,具有内置 API 端点和可选的 JWT 身份验证。
  • 命令行界面 (CLI):直接从终端与 Crawl4AI 交互。使用简单的命令即可抓取、配置和提取数据。
  • LLM 配置(LLMConfig ):一种新的、统一的方式来配置 LLM 提供程序(OpenAI、Anthropic、Ollama 等),以进行提取、过滤和模式生成。简化了 API 密钥管理和模型之间的切换。

小更新和改进:

  • LXML 抓取模式:更快的 HTML 解析LXMLWebScrapingStrategy
  • 代理轮换:已添加ProxyRotationStrategyRoundRobinProxyStrategy执行。
  • PDF 处理:从 PDF 文件中提取文本、图像和元数据。
  • URL 重定向跟踪:自动跟踪并记录重定向。
  • Robots.txt 合规性:可选择遵守网站抓取规则。
  • LLM 支持的模式生成:使用 LLM 自动创建提取模式。
  • :使用 LLM 生成高质量、重点突出的 markdown。
  • 改进的错误处理和稳定性:大量错误修复和性能增强。
  • 增强文档:更新指南和示例。

重大变更和迁移:

此版本包含多项重大变更,旨在改进库的结构和一致性。以下是您需要了解的内容:

  • 行为:现在使用MemoryAdaptiveDispatcher默认情况下。返回类型取决于stream参数输入CrawlerRunConfig. 调整依赖于无限制并发的代码。
  • 地点:已移至CrawlerRunConfig现在控制爬行深度。
  • 深度抓取导入:导入DeepCrawlStrategy以及来自的相关课程crawl4ai.deep_crawling
  • API:已更新;旧的get_context方法已被弃用。
  • 可选模型字段:许多数据模型字段现在是可选的。处理潜在的None值。
  • 枚举:替换为策略模式(WebScrapingStrategyLXMLWebScrapingStrategy )。
  • 参数:从CrawlerRunConfig. 使用提取策略或带有过滤器的 markdown 生成器。
  • 删除的功能:同步WebCrawler、旧的 CLI 和文档管理工具已被删除。
  • Docker:部署方面有重大变化。请参阅Docker 文档
  • :该文件已被删除。
  • 配置:FastFilterChain 已被 FilterChain 取代
  • 深度爬行:DeepCrawlStrategy.arun 现在返回 Union[CrawlResultT, List[CrawlResultT], AsyncGenerator[CrawlResultT, None]]
  • 代理:删除同步 WebCrawler 支持和相关速率限制配置
  • LLM 参数:使用新的LLMConfig对象而不是传递providerapi_tokenbase_url , 和api_base直接LLMExtractionStrategyLLMContentFilter

简而言之:更新导入,调整arun_many()用法,检查可选字段,并查看 Docker 部署指南。

许可证变更

Crawl4AI v0.5.0 将许可证更新至 Apache 2.0,并添加了强制署名条款。这意味着您可以自由使用、修改和分发 Crawl4AI(即使是商业用途),但在任何公开使用或分发中,您必须明确注明项目名称。请参阅更新后的LICENSE查阅完整的法律文本和具体要求。

开始:

我很高兴看到您使用 Crawl4AI v0.5.0 构建的内容!


0.4.2 - 可配置爬虫、会话管理和更智能的截图

2024年12月12日

0.4.2 更新带来了配置方面的重大改进,使用专用对象使爬虫和浏览器更易于管理。您现在可以导入/导出本地存储,实现无缝会话管理。此外,长页面截图速度更快、更清晰,并且现在可以导出整页 PDF。查看所有新功能,让您的爬虫体验更加流畅。

阅读完整发行说明 →


0.4.1 - 通过延迟加载处理、纯文本模式等实现更智能的抓取

2024年12月8日

此版本对延迟加载图片的处理、超快的纯文本模式、支持无限滚动的全页扫描、动态视口调整以及会话复用以实现高效抓取等功能进行了重大改进。如果您希望提升速度、可靠性或轻松处理动态内容,此更新将满足您的需求。

阅读完整发行说明 →


0.4.0 - 主要内容过滤更新

2024年12月1日

对内容过滤、多线程环境处理和用户代理生成进行了重大改进。此版本新增了 PruningContentFilter,增强了线程安全性,并提升了测试覆盖率。

阅读完整发行说明 →

项目历史

想知道 Crawl4AI 是如何演变的吗?查看我们的完整更新日志,了解所有版本和更新的详细历史记录。

保持更新

  • GitHub上为我们加星标
  • 在 Twitter 上关注@unclecode
  • 加入我们在 GitHub 上的社区讨论

> Feedback