开源高性能文档提取利器Kreuzberg:支持75+格式、OCR及Docker部署

📅 发布时间:2026/7/4 14:10:04 👁️ 浏览次数:
开源高性能文档提取利器Kreuzberg:支持75+格式、OCR及Docker部署
以下是对 Kreuzberg 的简单介绍这是一个基于 Rust 内核的多语言文档智能框架它可以从 PDF、Office 文档、图像以及 76 种以上的文件格式中提取文本、元数据和结构化信息为 Rust、Python、TypeScript/Node.js、Ruby、Go、Java、C#、PHP、Elixir、R 和 C 提供原生SDK支持多种OCR驱动包括Tesseract、PaddleOCR、EasyOCR可通过插件 API 扩展由 Rust 编写高性能内存利用高效适用超大文档解析部署使用方式灵活可作为库、CLI 工具、REST API 服务器或 MCP 服务器使用提供Docker部署方式该工具的开源地址参考https://github.com/kreuzberg-dev/kreuzbergDocker快速部署与API调用示例参考开源高性能文档提取利器Kreuzberg支持75格式、OCR及Docker部署https://blog.luler.top/d/110