Inferact融资1.5亿,商业化vLLM推理引擎

📅 发布时间:2026/7/4 15:45:02 👁️ 浏览次数:
Inferact融资1.5亿,商业化vLLM推理引擎
一家新创企业于今日宣布成立致力于将开源项目 vLLM 商业化。该公司已获得 1.5 亿美元的种子资金投资方包括 Andreessen Horowitz 和 Lightspeed以及某机构的风险投资部门和其他几家投资机构此轮融资对该公司的估值为 8 亿美元。该公司的创始团队包括计算机科学教授、某机构联合创始人 Ion Stoica。他目前担任某大学实验室主任该实验室于 2023 年开发了 vLLM 的原始版本。此后该项目的代码贡献者已增长到 2000 多名开发者。软件团队使用 vLLM 来加速推理任务。该工具通过对大语言模型应用一系列优化来提升性能。其中许多优化包括一个名为 PagedAttention 的关键特性都专注于减少模型的内存使用。当大语言模型收到提示时它会完成生成答案所需的一小部分计算并将结果保存到所谓的 KV 缓存中。然后它会执行另一部分计算用新结果更新 KV 缓存并重复此过程直到生成最终的响应。存储所有这些中间结果需要大量的内存。PagedAttention 使得将 KV 缓存数据存储在服务器内存的非连续区域成为可能。这一特性与其他一些功能显著减少了内存浪费从而降低了大语言模型对硬件资源的消耗。此外vLLM 还使用一种称为“量化”的方法来压缩 AI 模型的权重从而进一步缩减其内存占用。除了优化内存使用vLLM 还能提升推理速度。大语言模型通常逐个生成响应的 token。借助 vLLM开发者可以配置其模型一次生成多个 token从而减少用户的等待时间。该公司的联合创始人写道“我们预见一个AI服务变得轻松自如的未来。如今规模化部署前沿模型需要一个专门的基础设施团队。明天这应该会像启动一个无服务器数据库一样简单。复杂性并未消失而是被吸收到我们正在构建的基础设施之中。”这篇博文暗示该公司计划推出 vLLM 的付费无服务器版本。许多专注于将开源项目商业化的初创公司都采取这种方式。通常开源技术的托管版本可以自动执行管理任务例如配置基础设施和下载更新。该公司的一则招聘信息显示其计划为其软件配备可观测性、故障排除和灾难恢复功能。该信息还表明该软件将运行在 Kubernetes 上。博文中写道包括几位 vLLM 核心维护者在内的团队也将增强上游的开源版本。公司计划发布新的性能优化并支持新兴的 AI 模型架构。此外该公司还将使 vLLM 能够在更多类型的数据中心硬件上运行。FINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享