安装和设置(2023 版)

1.基本安装

pip install crawl4ai

这将安装 Crawl4AI 核心库及其必要的依赖项。目前尚不包含高级功能(例如 Transformers 或 PyTorch)。

2. 初始设置和诊断

2.1 运行安装命令

安装完成后调用:

crawl4ai-setup

它的作用是什么? - 安装或更新所需的 Playwright 浏览器(Chromium、Firefox 等) - 执行操作系统级检查(例如,Linux 上缺少库) - 确认您的环境已准备好进行抓取

2.2 诊断

或者,您可以运行诊断程序来确认一切正常:

crawl4ai-doctor

此命令尝试: - 检查 Python 版本兼容性 - 验证 Playwright 安装 - 检查环境变量或库冲突

如果出现任何问题,请按照其建议(例如,安装额外的系统包)并重新运行crawl4ai-setup


3. 验证安装:简单爬取(如果已经运行,请跳过此步骤crawl4ai-doctor)

下面是一个演示基本爬取的 Python 脚本。它使用了我们新的BrowserConfigCrawlerRunConfig为了清楚起见,尽管此示例中没有传递任何自定义设置:

import asyncio
from crawl4ai import AsyncWebCrawler, BrowserConfig, CrawlerRunConfig

async def main():
    async with AsyncWebCrawler() as crawler:
        result = await crawler.arun(
            url="https://www.example.com",
        )
        print(result.markdown[:300])  # Show the first 300 characters of extracted text

if __name__ == "__main__":
    asyncio.run(main())

预期结果: - 无头浏览器会话加载example.com- Crawl4AI 返回约 300 个 Markdown 字符。如果出现错误,请重新运行crawl4ai-doctor或手动确保 Playwright 已正确安装。


4.高级安装(可选)

警告:仅在真正需要时才安装这些组件。它们会带来更大的依赖项,包括大型模型,这会显著增加磁盘使用量和内存负载。

4.1 火炬、变压器或全部

  • 文本聚类(Torch)
    pip install crawl4ai[torch]
    crawl4ai-setup
    
    安装基于 PyTorch 的功能(例如余弦相似度或高级语义分块)。
  • 变形金刚
    pip install crawl4ai[transformer]
    crawl4ai-setup
    
    添加基于 Hugging Face 的摘要或生成策略。
  • 所有功能
    pip install crawl4ai[all]
    crawl4ai-setup
    

(可选)预取模型

crawl4ai-download-models
This step caches large models locally (if needed). Only do this if your workflow requires them.


5. Docker(实验性)

我们提供了一种临时的 Docker 方法用于测试。它不稳定,可能会与未来的版本兼容。我们计划在未来的稳定版本(2025 年第一季度)中对 Docker 进行重大改进。如果您仍想尝试:

docker pull unclecode/crawl4ai:basic
docker run -p 11235:11235 unclecode/crawl4ai:basic

然后你可以向http://localhost:11235/crawl执行爬虫操作。在新的 Docker 方法准备就绪(计划于 2025 年 1 月或 2 月推出)之前,不建议在生产环境中使用。


6. 本地服务器模式(旧版)

一些较早的文档提到将 Crawl4AI 作为本地服务器运行。这种方法已被新的基于 Docker 的原型和即将发布的稳定服务器版本部分取代。您可以尝试一下,但预计会有重大变化。新的 Docker 架构最终确定后,官方将发布本地服务器说明。


概括

1. 安装pip install crawl4ai然后运行crawl4ai-setup. 2. 诊断crawl4ai-doctor如果看到错误。3. 通过爬取验证example.com以最少的BrowserConfig+CrawlerRunConfig 。4. 高级功能(Torch、Transformers)是可选的——如果不需要,请避免使用它们(它们会显著增加资源使用率)。5. Docker 是实验性的——在稳定版本发布之前,使用风险自负。6. 旧文档中的本地服务器引用已基本弃用;新的解决方案正在进行中。

有问题吗?查看GitHub 问题以获取更新或咨询社区!


> Feedback