代码示例

本页面提供了完整的示例脚本列表,用于演示 Crawl4AI 的各种特性和功能。每个示例都旨在展示特定的功能,以便您更轻松地了解如何在自己的项目中实现这些功能。

入门示例

例子 描述 关联
你好世界 一个简单的介绍性示例,演示了 AsyncWebCrawler 的基本用法,包括 JavaScript 执行和内容过滤。 查看代码
快速入门 全面的示例集合,展示各种功能,包括基本爬取、内容清理、链接分析、JavaScript 执行、CSS 选择器、媒体处理、自定义挂钩、代理配置、屏幕截图和多种提取策略。 查看代码
快速入门套装 1 开始使用 Crawl4AI 的基本示例。 查看代码
快速入门套装 2 使用 Crawl4AI 的更多高级示例。 查看代码

浏览器和爬取功能

例子 描述 关联
内置浏览器 演示如何使用内置浏览器功能。 查看代码
浏览器优化 专注于浏览器性能优化技术。 查看代码
arun 与 arun_many 比较arunarun_many单个与多个 URL 抓取的方法。 查看代码
多个 URL 展示如何异步抓取多个 URL。 查看代码
页面交互 通过点击与动态元素进行交互的指南。 查看指南
爬虫监控器 展示如何监控爬虫的活动和状态。 查看代码
整页截图和 PDF 从大量网页中捕获整页截图和 PDF 的指南。 查看指南

高级爬行和深度爬行

例子 描述 关联
深度爬行 关于深度爬行功能的广泛教程,演示了 BFS 和 BestFirst 策略、流与非流执行、过滤器、评分器和高级配置。 查看代码
<<<<<<< 头部
虚拟卷轴 处理 Twitter、Instagram 等网站上虚拟化滚动的综合示例。使用本地测试服务器演示不同的滚动场景。 查看代码
=======
自适应爬行 演示智能爬取,自动确定何时已收集到足够的信息。 查看代码
>>>>>>> 功能/渐进式爬行
调度员 展示如何使用爬网调度程序进行高级工作负载管理。 查看代码
存储状态 关于管理浏览器存储状态以实现持久性的教程。 查看指南
网络控制台捕获 演示如何捕获和分析网络请求和控制台日志。 查看代码

提取策略

例子 描述 关联
提取策略 演示具有各种输入格式(markdown、HTML、fit_markdown)和基于 JSON 的提取器(CSS 和 XPath)的不同提取策略。 查看代码
抓取策略 比较不同抓取策略的性能。 查看代码
法学硕士 (LLM) 提取 演示专门针对 OpenAI 定价数据的基于 LLM 的提取。 查看代码
LLM Markdown 展示如何使用 LLM 从抓取的内容生成 markdown。 查看代码
摘要页面 展示如何总结网页内容。 查看代码

电子商务和专业爬虫

例子 描述 关联
亚马逊产品提取 演示如何使用 CSS 选择器从亚马逊搜索结果中提取结构化产品数据。 查看代码
带钩子的亚马逊 展示如何将钩子与亚马逊产品提取结合使用。 查看代码
使用 JavaScript 的亚马逊 演示使用自定义 JavaScript 进行亚马逊产品提取。 查看代码
密码分析 演示如何抓取和分析加密货币数据。 查看代码
SERP API 演示如何使用 Crawl4AI 和搜索引擎结果页面。 查看代码

定制和安全

例子 描述 关联
钩子 说明如何在爬取过程的不同阶段使用钩子进行高级定制。 查看代码
基于身份的浏览 说明基于身份的浏览配置以获得真实的浏览体验。 查看代码
代理轮换 展示如何使用代理轮换进行网页抓取并避免 IP 阻止。 查看代码
SSL 证书 说明 SSL 证书处理和验证。 查看代码
语言支持 展示如何在爬取过程中处理不同的语言。 查看代码
地理位置 演示如何使用地理定位功能。 查看代码

Docker 与部署

例子 描述 关联
Docker 配置 演示如何创建和使用 Docker 配置对象。 查看代码
Docker 基础 Docker 部署的测试套件,通过 Docker API 展示各种功能。 查看代码
Docker REST API 展示如何使用 REST API 调用与 Crawl4AI Docker 交互。 查看代码
Docker SDK 演示如何使用 Crawl4AI Docker 的 Python SDK。 查看代码

应用示例

例子 描述 关联
研究助理 演示如何使用 Crawl4AI 构建研究助手。 查看代码
REST 调用 展示如何使用 Crawl4AI 进行 REST API 调用。 查看代码
Chainlit 集成 展示如何将 Crawl4AI 与 Chainlit 集成。 查看指南
Crawl4AI 与 FireCrawl 将 Crawl4AI 与 FireCrawl 库进行比较。 查看代码

内容生成和 Markdown

例子 描述 关联
内容来源 演示如何在 markdown 生成中使用不同的内容源。 查看代码
内容来源(简短) 内容源使用的简化版本。 查看代码
内置浏览器指南 使用内置浏览器功能的指南。 查看指南

运行示例

要运行这些示例中的任何一个,您需要安装 Crawl4AI:

pip install crawl4ai

然后,您可以运行如下示例脚本:

python -m docs.examples.hello_world

有关需要额外依赖项或环境变量的示例,请参阅每个文件顶部的注释。

一些示例可能需要: - API 密钥(用于基于 LLM 的示例) - Docker 设置(用于与 Docker 相关的示例) - 附加依赖项(在示例文件中指定)

贡献新示例

如果您创建了一个有趣的示例,展示了 Crawl4AI 的独特用例或功能,我们鼓励您将其贡献到我们的示例库中。请参阅我们的贡献指南了解更多信息。


> Feedback