Crawl4AI:开源 LLM 友好型网络爬虫和抓取工具

Crawl4AI是开源的LLM友好型Web爬虫与数据抓取框架,提供高速、实时的网页爬取和AI准备流程,支持Markdown生成、结构化数据提取、托管浏览器和多种抓取策略等功能。项目已获得43.2k星标,并在Apache-2.0协议下开源,拥有活跃社区持续维护与更新。用户可通过pip一键安装或Docker部署,轻松集成到AI管道与LLM应用中。最新版本v0.6.0引入地理感知爬取、表格提取与浏览器池预热等特性,显著提升性能与灵活性。框架支持代理认证、会话管理、缓存与错误处理等扩展钩子,可自定义爬取流程,并提供命令行工具crwl进行深度爬取与LLM驱动的内容抽取。

Crawl4AI:开源 LLM 友好型网络爬虫和抓取工具

官网:https://github.com/unclecode/crawl4ai

✨ 特点

📝 Markdown 生成
  • 🧹干净的 Markdown:生成干净、结构化且格式准确的 Markdown。
  • 🎯 Fit Markdown:基于启发式的过滤,消除噪音和不相关的部分,以实现 AI 友好型处理。
  • 🔗引用和参考:将页面链接转换为带有清晰引用的编号参考列表。
  • 🛠️自定义策略:用户可以根据特定需求创建自己的 Markdown 生成策略。
  • 📚 BM25 算法:采用基于 BM25 的过滤来提取核心信息并删除不相关的内容。
📊结构化数据提取
  • 🤖 LLM 驱动提取:支持所有 LLM(开源和专有)进行结构化数据提取。
  • 🧱分块策略:实现分块(基于主题、正则表达式、句子级别)以进行有针对性的内容处理。
  • 🌌余弦相似度:根据用户查询查找相关内容块以进行语义提取。
  • 🔎基于 CSS 的提取:使用 XPath 和 CSS 选择器快速基于模式的数据提取。
  • 🔧模式定义:定义自定义模式以从重复模式中提取结构化 JSON。
🌐浏览器集成
  • 🖥️托管浏览器:使用用户拥有的具有完全控制权的浏览器,避免机器人检测。
  • 🔄远程浏览器控制:连接到 Chrome 开发者工具协议,进行远程、大规模数据提取。
  • 👤浏览器分析器:使用保存的身份验证状态、cookie 和设置创建和管理持久配置文件。
  • 🔒会话管理:保存浏览器状态并在多步骤爬取中重复使用它们。
  • 🧩代理支持:无缝连接到具有身份验证的代理以实现安全访问。
  • ⚙️完全浏览器控制:修改标头、cookie、用户代理等以进行定制的抓取设置。
  • 🌍多浏览器支持:兼容 Chromium、Firefox 和 WebKit。
  • 📐动态视口调整:自动调整浏览器视口以匹配页面内容,确保完整渲染和捕获所有元素。
🔎爬取和抓取
  • 🖼️媒体支持:提取图像、音频、视频和响应式图像格式,如srcsetpicture
  • 🚀动态爬取:执行 JS 并等待异步或同步以提取动态内容。
  • 📸截图:在爬取过程中捕获页面截图,用于调试或分析。
  • 📂原始数据抓取:直接处理原始 HTML ( raw:) 或本地文件 ( file://)。
  • 🔗全面的链接提取:提取内部、外部链接和嵌入的 iframe 内容。
  • 🛠️可定制的钩子:在每一步定义钩子来定制爬行行为。
  • 💾缓存:缓存数据以提高速度并避免冗余获取。
  • 📄元数据提取:从网页中检索结构化元数据。
  • 📡 IFrame 内容提取:从嵌入的 iframe 内容中无缝提取。
  • 🕵️延迟加载处理:等待图像完全加载,确保不会因延迟加载而错过任何内容。
  • 🔄全页扫描:模拟滚动以加载和捕获所有动态内容,非常适合无限滚动页面。
🚀部署
  • 🐳 Dockerized 设置:使用 FastAPI 服务器优化 Docker 镜像,以便于部署。
  • 🔑安全身份验证:内置 JWT 令牌身份验证,确保 API 安全。
  • 🔄 API 网关:针对基于 API 的工作流,通过安全令牌认证进行一键部署。
  • 🌐可扩展架构:专为大规模生产和优化服务器性能而设计。
  • ☁️云部署:适用于主要云平台的即用型部署配置。
🎯附加功能
  • 🕶️隐身模式:通过模仿真实用户来避免机器人检测。
  • 🏷️基于标签的内容提取:根据自定义标签、标题或元数据优化抓取。
  • 🔗链接分析:提取并分析所有链接以进行详细的数据探索。
  • 🛡️错误处理:强大的错误管理,实现无缝执行。
  • 🔐 CORS 和静态服务:支持基于文件系统的缓存和跨域请求。
  • 📖清晰的文档:简化和更新的入门和高级使用指南。
  • 🙌社区认可:承认贡献者并提出透明度请求。

Libre Depot(自由仓库)原创文章、发布者:Libre Depot = 转载请注明出处:https://www.libredepot.top/zh/5511.html

(0)
Libre DepotLibre Depot
上一篇 5小时前
下一篇 4小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注