🚀🤖 Crawl4AI:LLM 友好型开源 Web 爬虫和抓取工具
Crawl4AI 是 GitHub 上排名第一的热门代码库,由充满活力的社区积极维护。它提供速度超快、AI 就绪的 Web 爬取功能,专为大型语言模型、AI 代理和数据管道量身定制。Crawl4AI 完全开源、灵活且专为实时性能打造,为开发者提供无与伦比的速度、精度和部署便捷性。
注意:如果您正在寻找旧文档,可以在此处访问。
🎯 新功能:自适应网页爬取
Crawl4AI 现在具有智能自适应爬取功能,它知道何时停止!它使用先进的信息搜寻算法,判断何时收集到足够的信息来回答您的查询。
快速入门
下面是一个简单的示例,向您展示使用 Crawl4AI 及其异步功能是多么容易:
import asyncio
from crawl4ai import AsyncWebCrawler
async def main():
# Create an instance of AsyncWebCrawler
async with AsyncWebCrawler() as crawler:
# Run the crawler on a URL
result = await crawler.arun(url="https://crawl4ai.com")
# Print the extracted content
print(result.markdown)
# Run the async main function
asyncio.run(main())
视频教程
Crawl4AI 做什么?
Crawl4AI 是一款功能丰富的爬虫和抓取工具,旨在:
1. 生成简洁的 Markdown:非常适合 RAG 流程或直接提取到 LLM。2. 结构化提取:使用 CSS、XPath 或基于 LLM 的提取方法解析重复模式。3. 高级浏览器控制:钩子、代理、隐身模式、会话重用——细粒度控制。4. 高性能:并行爬取、基于块的提取、实时用例。5. 开源:无强制 API 密钥,无付费墙——每个人都可以访问自己的数据。
核心理念: - 数据民主化:免费使用、透明且高度可配置。 - LLM 友好:经过最少处理、结构良好的文本、图像和元数据,因此 AI 模型可以轻松使用它。
文档结构
为了帮助您入门,我们将文档组织成清晰的部分:
- 设置和安装通过 pip 或 Docker 安装 Crawl4AI 的基本说明。
- 快速入门实践介绍如何进行第一次抓取、生成 Markdown 以及进行简单的提取。
- 核心更深层次的指导单页爬取、高级浏览器/爬虫参数、内容过滤和缓存。
- 高级探索链接和媒体处理、延迟加载、挂钩和身份验证、代理、会话管理等。
- 提取无 LLM(CSS、XPath)与基于 LLM 的策略、分块和聚类方法的详细参考。
- API 参考 查找每个类和方法的技术细节,包括
AsyncWebCrawler
,arun()
, 和CrawlResult
。
在这些部分中,您可以找到可以复制粘贴到您的环境中的代码示例。如果缺少任何内容或不清楚,请提出问题或 PR。
如何提供支持
- Star & Fork:如果您发现 Crawl4AI 有用,请在 GitHub 上为该 repo 加星标或对其进行分叉以添加您自己的功能。
- 提交问题:遇到错误或功能缺失?请提交问题告知我们,以便我们改进。
- 拉取请求:无论是小修复、大功能还是更好的文档,我们都欢迎贡献。
- 加入 Discord:与社区讨论网络抓取、爬取技巧或 AI 工作流程。
- 传播:在您的博客文章、演讲或社交媒体上提及 Crawl4AI。
我们的使命:让每个人(学生、研究人员、企业家、数据科学家)都能以快速、经济高效和自由的创作方式访问、解析和塑造世界数据。
快速链接
感谢你们与我同行。让我们携手共建开放、民主的数据提取和人工智能之路。
祝您爬行愉快!——Unclecode,Crawl4AI 创始人兼维护者