Crawl4AI 博客
欢迎来到 Crawl4AI 博客!在这里,您可以找到详细的发行说明、技术见解以及项目的最新动态。无论您是想了解最新改进,还是想深入了解网络爬虫技术,这里都是您的理想之选。
精选文章
何时停止爬行:了解“足够”的艺术
2025年1月29日
传统的爬虫就像时间无限的游客——它们会走遍每一条街道、每一条小巷、每一条死胡同。但如果您的爬虫能够像一位有最后期限的研究人员一样思考,会怎么样呢?探索自适应爬虫如何通过判断何时停止来彻底改变网页抓取。了解三层智能系统如何评估覆盖率、一致性和饱和度,从而构建专注的知识库,而不是无休止的页面集合。
LLM 上下文协议:为什么你的 AI 助手需要记忆、推理和示例
2025年1月24日
您是否想过,为什么您的 AI 编程助手即使拥有详尽的文档,仍然难以理解您的代码库?本文介绍了三维上下文协议,它彻底改变了 AI 理解代码的方式。了解为什么记忆、推理和示例共同创造了智慧,而不仅仅是信息。
最新版本
Crawl4AI v0.7.0 – 自适应智能更新
2025年1月28日
Crawl4AI v0.7.0 引入了突破性的智能功能,彻底改变了爬虫理解和适应网站的方式。此版本带来了:自适应爬取功能(可学习网站模式)、虚拟滚动(支持无限页面)、智能链接预览(具有三层评分)以及强大的异步 URL 播种器(用于大规模 URL 发现)。
主要亮点: - 自适应爬行:自动学习和适应网站结构的爬虫 - 虚拟滚动支持:从现代无限滚动页面中提取完整内容 - 链接预览:用于智能链接优先级的 3 层评分系统 - 异步 URL 播种机:通过智能过滤在几秒钟内发现数千个 URL - 性能提升:通过优化的资源处理,速度最高可提高 3 倍
先前版本
Crawl4AI v0.6.0 – 全球感知爬取、预热浏览器和 MCP API
2024年12月23日
Crawl4AI v0.6.0 带来了重大的架构升级,包括全球感知爬取(设置地理位置、语言环境和时区)、实时流量捕获以及带有预热页面的内存高效爬取器池。
Docker 服务器现已开放功能齐全的 MCP 套接字 + SSE 接口,支持流式传输,并配备了全新的 Playground UI。此外,表格提取现已原生支持,新的压力测试框架支持抓取 1,000 多个 URL。
其他主要变化:
- 本机支持
result.media["tables"]
导出 DataFrames - 每次抓取的完整网络 + 控制台日志和 MHTML 快照
- 浏览器池和预热以实现更快的冷启动
- 通过 MCP API 和 Playground 提供新的流媒体端点
- Robots.txt 支持、代理轮换和改进的会话处理
- 弃用旧的 Markdown 名称,清理遗留模块
- 大规模 repo 清理:在 121 个文件中插入约 36,000 条数据,删除约 5,000 条数据
Crawl4AI v0.5.0:深度爬行、可扩展性和新的 CLI!
亲爱的爬虫朋友们,Crawl4AI v0.5.0 正式发布啦!此版本带来了丰富的新功能、性能提升以及更流畅的开发者体验。以下是新功能的详细介绍:
主要新功能:
- 深度爬取:使用可配置策略(广度优先、深度优先、最佳优先)探索整个网站。自定义过滤器和 URL 评分,实现定向爬取。
- 内存自适应调度器:轻松处理大规模爬取!我们的新调度器会根据可用内存动态调整并发度,并内置速率限制功能。
- 多种爬虫策略:在功能齐全的基于 Playwright 浏览器的爬虫或新的、速度更快的仅限 HTTP 的爬虫之间进行选择,以完成更简单的任务。
- Docker 部署:将 Crawl4AI 部署为可扩展的、独立的服务,具有内置 API 端点和可选的 JWT 身份验证。
- 命令行界面 (CLI):直接从终端与 Crawl4AI 交互。使用简单的命令即可抓取、配置和提取数据。
- LLM 配置(
LLMConfig
):一种新的、统一的方式来配置 LLM 提供程序(OpenAI、Anthropic、Ollama 等),以进行提取、过滤和模式生成。简化了 API 密钥管理和模型之间的切换。
小更新和改进:
- LXML 抓取模式:更快的 HTML 解析
LXMLWebScrapingStrategy
。 - 代理轮换:已添加
ProxyRotationStrategy
与RoundRobinProxyStrategy
执行。 - PDF 处理:从 PDF 文件中提取文本、图像和元数据。
- URL 重定向跟踪:自动跟踪并记录重定向。
- Robots.txt 合规性:可选择遵守网站抓取规则。
- LLM 支持的模式生成:使用 LLM 自动创建提取模式。
- :使用 LLM 生成高质量、重点突出的 markdown。
- 改进的错误处理和稳定性:大量错误修复和性能增强。
- 增强文档:更新指南和示例。
重大变更和迁移:
此版本包含多项重大变更,旨在改进库的结构和一致性。以下是您需要了解的内容:
- 行为:现在使用
MemoryAdaptiveDispatcher
默认情况下。返回类型取决于stream
参数输入CrawlerRunConfig
. 调整依赖于无限制并发的代码。 - 地点:已移至
CrawlerRunConfig
现在控制爬行深度。 - 深度抓取导入:导入
DeepCrawlStrategy
以及来自的相关课程crawl4ai.deep_crawling
。 - API:已更新;旧的
get_context
方法已被弃用。 - 可选模型字段:许多数据模型字段现在是可选的。处理潜在的
None
值。 - 枚举:替换为策略模式(
WebScrapingStrategy
,LXMLWebScrapingStrategy
)。 - 参数:从
CrawlerRunConfig
. 使用提取策略或带有过滤器的 markdown 生成器。 - 删除的功能:同步
WebCrawler
、旧的 CLI 和文档管理工具已被删除。 - Docker:部署方面有重大变化。请参阅Docker 文档。
- :该文件已被删除。
- 配置:FastFilterChain 已被 FilterChain 取代
- 深度爬行:DeepCrawlStrategy.arun 现在返回 Union[CrawlResultT, List[CrawlResultT], AsyncGenerator[CrawlResultT, None]]
- 代理:删除同步 WebCrawler 支持和相关速率限制配置
- LLM 参数:使用新的
LLMConfig
对象而不是传递provider
,api_token
,base_url
, 和api_base
直接LLMExtractionStrategy
和LLMContentFilter
。
简而言之:更新导入,调整arun_many()
用法,检查可选字段,并查看 Docker 部署指南。
许可证变更
Crawl4AI v0.5.0 将许可证更新至 Apache 2.0,并添加了强制署名条款。这意味着您可以自由使用、修改和分发 Crawl4AI(即使是商业用途),但在任何公开使用或分发中,您必须明确注明项目名称。请参阅更新后的LICENSE
查阅完整的法律文本和具体要求。
开始:
- 安装:
pip install "crawl4ai[all]"
(或使用 Docker 镜像) - 文档: https://crawl4ai-docs.iloveaiwork.com
- GitHub: https://github.com/unclecode/crawl4ai
我很高兴看到您使用 Crawl4AI v0.5.0 构建的内容!
0.4.2 - 可配置爬虫、会话管理和更智能的截图
2024年12月12日
0.4.2 更新带来了配置方面的重大改进,使用专用对象使爬虫和浏览器更易于管理。您现在可以导入/导出本地存储,实现无缝会话管理。此外,长页面截图速度更快、更清晰,并且现在可以导出整页 PDF。查看所有新功能,让您的爬虫体验更加流畅。
0.4.1 - 通过延迟加载处理、纯文本模式等实现更智能的抓取
2024年12月8日
此版本对延迟加载图片的处理、超快的纯文本模式、支持无限滚动的全页扫描、动态视口调整以及会话复用以实现高效抓取等功能进行了重大改进。如果您希望提升速度、可靠性或轻松处理动态内容,此更新将满足您的需求。
0.4.0 - 主要内容过滤更新
2024年12月1日
对内容过滤、多线程环境处理和用户代理生成进行了重大改进。此版本新增了 PruningContentFilter,增强了线程安全性,并提升了测试覆盖率。
项目历史
想知道 Crawl4AI 是如何演变的吗?查看我们的完整更新日志,了解所有版本和更新的详细历史记录。
保持更新
- 在GitHub上为我们加星标
- 在 Twitter 上关注@unclecode
- 加入我们在 GitHub 上的社区讨论