安装和设置(2023 版)
1.基本安装
这将安装 Crawl4AI 核心库及其必要的依赖项。目前尚不包含高级功能(例如 Transformers 或 PyTorch)。
2. 初始设置和诊断
2.1 运行安装命令
安装完成后调用:
它的作用是什么? - 安装或更新所需的 Playwright 浏览器(Chromium、Firefox 等) - 执行操作系统级检查(例如,Linux 上缺少库) - 确认您的环境已准备好进行抓取
2.2 诊断
或者,您可以运行诊断程序来确认一切正常:
此命令尝试: - 检查 Python 版本兼容性 - 验证 Playwright 安装 - 检查环境变量或库冲突
如果出现任何问题,请按照其建议(例如,安装额外的系统包)并重新运行crawl4ai-setup
。
3. 验证安装:简单爬取(如果已经运行,请跳过此步骤crawl4ai-doctor
)
下面是一个演示基本爬取的 Python 脚本。它使用了我们新的BrowserConfig
和CrawlerRunConfig
为了清楚起见,尽管此示例中没有传递任何自定义设置:
import asyncio
from crawl4ai import AsyncWebCrawler, BrowserConfig, CrawlerRunConfig
async def main():
async with AsyncWebCrawler() as crawler:
result = await crawler.arun(
url="https://www.example.com",
)
print(result.markdown[:300]) # Show the first 300 characters of extracted text
if __name__ == "__main__":
asyncio.run(main())
预期结果: - 无头浏览器会话加载example.com
- Crawl4AI 返回约 300 个 Markdown 字符。如果出现错误,请重新运行crawl4ai-doctor
或手动确保 Playwright 已正确安装。
4.高级安装(可选)
警告:仅在真正需要时才安装这些组件。它们会带来更大的依赖项,包括大型模型,这会显著增加磁盘使用量和内存负载。
4.1 火炬、变压器或全部
- 文本聚类(Torch)
安装基于 PyTorch 的功能(例如余弦相似度或高级语义分块)。pip install crawl4ai[torch] crawl4ai-setup
- 变形金刚
添加基于 Hugging Face 的摘要或生成策略。pip install crawl4ai[transformer] crawl4ai-setup
- 所有功能
pip install crawl4ai[all] crawl4ai-setup
(可选)预取模型
This step caches large models locally (if needed). Only do this if your workflow requires them.5. Docker(实验性)
我们提供了一种临时的 Docker 方法用于测试。它不稳定,可能会与未来的版本兼容。我们计划在未来的稳定版本(2025 年第一季度)中对 Docker 进行重大改进。如果您仍想尝试:
然后你可以向http://localhost:11235/crawl
执行爬虫操作。在新的 Docker 方法准备就绪(计划于 2025 年 1 月或 2 月推出)之前,不建议在生产环境中使用。
6. 本地服务器模式(旧版)
一些较早的文档提到将 Crawl4AI 作为本地服务器运行。这种方法已被新的基于 Docker 的原型和即将发布的稳定服务器版本部分取代。您可以尝试一下,但预计会有重大变化。新的 Docker 架构最终确定后,官方将发布本地服务器说明。
概括
1. 安装pip install crawl4ai
然后运行crawl4ai-setup
. 2. 诊断crawl4ai-doctor
如果看到错误。3. 通过爬取验证example.com
以最少的BrowserConfig
+CrawlerRunConfig
。4. 高级功能(Torch、Transformers)是可选的——如果不需要,请避免使用它们(它们会显著增加资源使用率)。5. Docker 是实验性的——在稳定版本发布之前,使用风险自负。6. 旧文档中的本地服务器引用已基本弃用;新的解决方案正在进行中。
有问题吗?查看GitHub 问题以获取更新或咨询社区!