1美金/小时,更快更强更智能,为真实世界生产力而生!MiniMax M2.5开源并上线魔乐社区 📅 发布时间:2026/7/5 11:45:11 👁️ 浏览次数: 2月13日MiniMax发布MiniMax M2.5模型在编程、工具调用和搜索、办公等生产力场景都达到或者刷新了行业的SOTA同时优化了模型对复杂任务的拆解能力和思考过程中 token 的消耗使其能更快地完成复杂的Agentic任务M2.5提供了经济上几乎无限制地构建和运营 Agent 的可能性。该模型已上线魔乐社区欢迎开发者下载体验 模型链接https://modelers.cn/models/MiniMaxAI/MiniMax-M2.5以下内容来自MiniMax稀宇科技M2 系列模型正以行业最快速度迭代。今天我们介绍 MiniMax M2.5M2.5 在编程、工具调用和搜索、办公等生产力场景都达到或者刷新了行业的 SOTA比如SWE-Bench Verified (80.2%)Multi-SWE-Bench (51.3%)BrowseComp (76.3%)M2.5 优化了模型对复杂任务的拆解能力和思考过程中 token 的消耗使其能更快地完成复杂的 Agentic 任务。在 SWE-Bench Verified 的测试中M2.5 比上一个版本 M2.1 完成任务的速度快了 37%M2.5 让无限运行复杂 Agent 在经济上可行。在每秒输出 100 token 的情况下M2.5 连续工作一小时只需花费 1 美金而在每秒输出 50 个 token 的情况下只需要 0.3 美金。MiniMax 内部已率先受益于 M2.5 的模型能力。在 MiniMax 内部真实业务场景中整体任务的 30% 由 M2.5 自主完成覆盖研发、产品、销售、HR、财务等职能且渗透率仍在持续上升。其中在编程场景表现尤为突出M2.5 生成的代码已占新提交代码的 80%。我们期待 M2.5 能够加速全民 Agent 时代的到来。编程像架构师一样思考和构建在编程的核心测试中M2.5 相比于上一代模型有了显著提升达到了跟 Claude Opus 系列类似的水平。在多语言相关的任务 Multi-SWE-Bench 上M2.5 更是达到了第一。M2.5 具备了「像架构师一样思考和构建」的能力比如模型演化出了原生 Spec 行为在动手写代码前以架构师视角主动拆解功能、结构和 UI 设计实现完整的前期规划。M2.5 在超过 10 种语言包括 GO、C、C、TS、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby和数十万个真实环境中进行了训练。不仅限于 bug fixed 类场景复杂系统的从 0-1 系统设计、环境构建从 1-10 的系统开发从 10-90 的功能迭代从 90-100 的完备 code review 与系统测试M2.5 都有可靠的表现能够胜任各类复杂系统开发的全流程。覆盖 Web、Android、iOS、Windows、Mac 等多平台的全栈项目包含 Server 端 API、功能逻辑、DataBase 等而不仅仅是“前端网页 demo”。为了衡量相关能力我们也将 VIBE 基准升级为了更复杂、更具挑战性的 Pro 版显著提升了任务复杂度、领域覆盖度和评估准确度。综合来看M2.5 与 Opus4.5 表现相当。我们关注了模型在不同脚手架上的泛化性。我们在不同的编程脚手架上测试了 SWE-Bench Verified 评测集上的表现。 在 Droid 上M2.5 的通过率为 79.7超过了 M2.1 的 71.3 分以及 Opus 4.6 的 78.9 分在 OpenCode 上M2.5 的通过率为 76.1 超过了 M2.1 的 72.0 分和 Opus 4.6 的 75.9 分。搜索和工具调用更高效地解决问题搜索和工具调用是模型能够自动处理复杂任务的前提在 BrowseComp、Wide Search 等榜单的评测中M2.5 在这些方面也达到了行业顶尖的水平。同时模型的泛化能力也有提升。M2.5 在面对陌生的脚手架环境时具有更加稳定的表现。在人类专家真实的搜索任务中使用搜索引擎只是一小部分更多的是在专业网页内进行深度探索。为此我们构建了 RISERealistic Interactive Search Evaluation用于衡量模型在真实专业任务上的搜索能力。结果表明 M2.5 在真实世界的专家级搜索任务上表现卓越。相比于前代模型M2.5 在处理复杂任务时也展现出了更高的决策成熟度它学会了用更精准的搜索轮次和更优的 token 效率去解决问题。例如在 BrowseComp、Wide Search 和 RISE 多项任务中M2.5 以更低的轮次消耗取得了更优的效果相较于 M2.1 节省了大约 20% 的轮次消耗。这表明模型不再只是“做对”题目而是能以更精简的路径逼近结果。办公场景直接交付专业产出我们考虑了在办公场景中如何给出真正可交付的产物。为此我们与金融、法律、社会科学等领域的资深从业者展开深度合作由他们提出需求、反馈问题、参与标准定义并直接构建数据将行业的隐性知识带入到模型的训练流程之中。在此基础上M2.5 在 Word、PPT、Excel 金融建模等办公高阶场景中取得了显著的能力提升。在评测层面我们构建了内部的 Cowork Agent 评测框架GDPval-MM以两两对比的方式评估模型的交付质量和轨迹的专业性同时监控全流程的 token 费用估算模型在生产力场景中的实际效益。在与主流模型的对比中它取得了 59.0% 的平均胜率。复杂任务快速推理我们总是希望 Agent 完成复杂任务的时间尽可能少。这取决于模型拆解复杂任务的能力、模型的 token 效率以及模型的推理速度。我们的模型本来就提供 100 TPS 的推理速度这几乎两倍于现在的主流模型。同时我们在强化学习中注重优化了模型对复杂任务的拆解能力和思考过程的 token 消耗。这三个环节加在一起使得 M2.5 在完成复杂任务的时间和成本上有显著的优势。例如在运行 SWE-Bench Verified 评测集时M2.5 平均在每个任务上消耗了 3.52M 的 token。相比之下M2.1 会消耗 3.72M tokens。同时由于在并行工具调用等能力上的提升端到端运行从平均 31.3 分钟减少到了 22.8 分钟速度提升了 37%。这一耗时情况与 Claude Opus 4.6 的 22.9 分钟基本持平。连续运行无成本负担我们设计 M2 系列的初衷是希望能没有成本约束的情况下运行复杂 Agents随着我们能力的持续提升我们认为 M2.5 已经接近实现了这个目标。M2.5 提供两个效果一样但是速度和价格不一样的版本速度 100 TPS 左右的快速版本处理每百万的 token 输入只需要 0.3 美金处理每百万的 token 输出只需要 2.4 美金。而 50 TPS 的版本的输出价格还更低一倍。按照输出价格参考50 TPS 的版本价格是 Opus、Gemini 3 Pro 以及 GPT5 这些模型的 1/10-1/20。在以每秒输出 100 个 token 的情况下连续工作一小时只需要 1 美金而在每秒输出 50 个 token 的情况下只需要 0.3 美金。也就是说1 万美金可以让 4 个 Agent 连续工作一年。M2.5 提供了经济上几乎无限制地构建和运营 Agent 的可能性。对于 M2 系列的模型来说唯一的问题变成了模型能力的进步速度。行业最快的进步速度在过去 108 天里面我们陆续更新了 M2、M2.1 和 M2.5模型的进步速度超过了我们原本的预期。比如在编程领域最具代表性的 SWE-Bench Verfied 上面相比 Claude、GPT 和 Gemini 等模型系列的进步速度M2 系列模型保持了行业最快的进步速度。原生 Agent RL 框架我们认为取得上述进展的核心原因是大规模的强化学习。它显著地提升了模型能力以及对脚手架、环境的泛化性。通过 Agent RL 框架、算法和 Reward 设计、工程优化的 co-design 我们支持了对任意 Agent 脚手架与环境的高效优化我们在包括大量公司内部真实任务的数十万个 Agent 脚手架与环境上大规模训练验证了模型能力随算力和任务数的 scaling 取得近线性提升。Forge - 原生 Agent RL 框架Forge 作为一个原生 Agent RL 框架在设计上通过引入中间层完全解耦了底层训推引擎与 Agent支持任意 Agent 的接入使得我们可以优化模型在 Agent 脚手架和工具上的泛化。为了提升系统吞吐我们优化了异步调度策略来平衡系统吞吐和样本的 off-policyness 并设计了树状合并训练样本的训练策略实现了约 40 倍的训练加速。Agent RL 算法与 Reward 设计算法层面我们沿用了我们年初提出的 CISPO 算法以保障 MoE 模型在大规模训练中的稳定性。针对 Agent 场景长上下文带来的信用分配Credit Assignment难题我们引入了过程奖励机制Process Reward对完成质量进行全链路监控。此外为深度对齐用户体验我们直接估计任务在真实环境下的耗时并作为 Reward在模型效果与响应速度之间实现了更好的平衡。关于 RL 的 scaling 和 Agent RL 框架 Forge 的更多信息我们会在后续的技术博客中给出。最佳 Agentic 体验M2.5 已经在 MiniMax Agent 中全面上线带来最佳 Agentic 体验。我们将处理信息的核心能力提炼为标准的 Office Skills深度集成于 Agent 中。全能MAX模式下处理 Word 排版、PPT 编辑、Excel 测算等任务时MiniMax Agent 将自动根据文件类型加载对应的 Office Skills提升任务输出质量。此外用户还可以将 Office Skills 与特定领域的行业经验相结合创建面向特定任务场景的、可复用的专家Expert。以行业研究为例将成熟的研究框架 SOP 与 Word Skills 融合后Agent 能够严格按照既定框架自动抓取数据、组织分析逻辑并输出格式规范的研报文档而非仅仅生成一段粗略的文字。在金融建模场景中将机构专属的建模规范与 Excel Skills 结合Agent 则可以遵循特定的风控逻辑与测算标准自动生成并校验复杂的财务模型而不只是输出一张简单的表格。截至目前用户已经在 MiniMax Agent 上构建了 1 万多个专家且仍在快速增长。MiniMax 也针对办公、金融、编程等高频场景在 MiniMax Agent 上构建了多组深度优化、开箱即用的专家套组。MiniMax M2.5 的模型权重已开源并上线魔乐社区支持本地部署欢迎开发者下载体验https://modelers.cn/models/MiniMaxAI/MiniMax-M2.5
终结二维监控,开启电力空间智能时代——矩阵视频融合 × 三角测量 × 数字孪生驱动能源安全治理升级 终结二维监控,开启电力空间智能时代——矩阵视频融合 三角测量 数字孪生驱动能源安全治理升级一、从“看见画面”到“掌握空间”:电力系统的结构性升级长期以来,电力行业的视频系统主要承担“记录与回放”的功能。无论是变电站、输电线路还… 2026/7/5 11:43:23
协同过滤算法Nodejs+vue3的旅游景点推荐系统 商家 文章目录协同过滤算法在Node.js与Vue3旅游景点推荐系统中的实现技术架构设计核心算法实现性能优化系统集成与部署扩展功能安全与监控--nodejs技术栈--结论源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!协同过滤算法在Node.js与Vue3旅游… 2026/5/17 5:20:33
数据中台在大数据领域的用户体验设计 数据中台在大数据领域的用户体验设计:让数据从“冰冷资源”变成“温暖助手” 关键词:数据中台、用户体验设计(UXD)、大数据用户、交互设计、数据服务、用户旅程、可用性测试 摘要:数据中台是企业的“数据心脏”,但许多企业的中台系统因“重技术、轻体验”,让数据分析师、… 2026/5/17 5:20:32
算法公平性实战:从偏见根源到AIF360工具应用 1. 项目概述:为什么算法公平性不再是“选修课”几年前,当我和团队部署一个用于信贷审批的机器学习模型时,我们遇到了一个棘手的问题。模型在整体上的AUC(曲线下面积)指标非常漂亮,达到了0.85,但… 2026/7/5 11:43:27
C#中使用ORB特征点检测实现高效视觉处理 1. ORB特征点检测在C#视觉工作流中的核心价值 在工业检测、增强现实等场景中,快速准确地提取图像特征点是计算机视觉的基础操作。ORB(Oriented FAST and Rotated BRIEF)作为SIFT和SURF的轻量级替代方案,兼顾了效率与精度优势。实测… 2026/7/5 11:41:27
QMCDecode:Mac用户的QQ音乐加密格式终极解密指南 QMCDecode:Mac用户的QQ音乐加密格式终极解密指南 【免费下载链接】QMCDecode QQ音乐QMC格式转换为普通格式(qmcflac转flac,qmc0,qmc3转mp3, mflac,mflac0等转flac),仅支持macOS,可自动识别到QQ音乐下载目录,默认转换结… 2026/7/5 11:41:27
基于EfficientNet的乐器识别系统开发与优化 1. 项目概述:乐器识别系统的核心价值这个Python深度学习的乐器识别系统,本质上是一个基于卷积神经网络(CNN)的细粒度图像分类器。与传统物体识别不同,乐器识别需要捕捉更细微的视觉特征差异——比如小提琴和中提琴的尺寸差异、萨克斯管与单簧… 2026/7/5 11:39:26
基于CNN的牙齿健康识别系统设计与实现 1. 项目背景与意义牙齿健康问题在全球范围内普遍存在,龋齿(俗称蛀牙)是最常见的口腔疾病之一。根据世界卫生组织统计,全球约有24亿人患有龋齿,其中5.3亿是儿童。传统龋齿诊断依赖牙医的临床检查,但早期龋齿… 2026/7/5 11:37:26
AI应用重塑工作流:15款顶级工具评测与实战指南 🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 这次我们来看一个关于 AI 应用生态的深度话题。标题“AI 将会取代 90% 的 app”听起来有些激进,但它背后反映的趋势是真实… 2026/7/5 11:35:25
6个月转型AI工程师:实战路径与核心技能 1. 项目概述:6个月转型AI工程师的可行性路径在2023年大模型技术爆发的背景下,AI工程师岗位需求同比增长217%(LinkedIn数据)。不同于传统算法工程师需要3-5年培养周期,现代AI工程师更侧重工程化落地能力。我在硅谷科技公… 2026/7/5 0:01:32
TPAFE0808与PIC18F87K22的多通道信号采集方案 1. 项目背景与核心需求在工业自动化、医疗设备和科研仪器等领域,多通道信号采集与系统监测是基础且关键的技术需求。传统方案往往面临通道数量不足、信号调理复杂、系统集成度低等问题。TPAFE0808作为一款8通道模拟前端芯片,与PIC18F87K22微控制器的组合… 2026/7/5 0:01:32
STC3115与PIC18LF26K80构建高精度电池管理系统 1. STC3115与PIC18LF26K80在电池管理系统中的核心价值在现代电子设备中,电池管理系统(BMS)的重要性不亚于设备的核心处理器。STC3115作为一款高精度电池电量监测IC,与PIC18LF26K80微控制器的组合,构成了一个既能精确监控又能智能管理的完整解… 2026/7/5 0:05:36
6个月转型AI工程师:实战路径与核心技能 1. 项目概述:6个月转型AI工程师的可行性路径在2023年大模型技术爆发的背景下,AI工程师岗位需求同比增长217%(LinkedIn数据)。不同于传统算法工程师需要3-5年培养周期,现代AI工程师更侧重工程化落地能力。我在硅谷科技公… 2026/7/5 0:01:32
TPAFE0808与PIC18F87K22的多通道信号采集方案 1. 项目背景与核心需求在工业自动化、医疗设备和科研仪器等领域,多通道信号采集与系统监测是基础且关键的技术需求。传统方案往往面临通道数量不足、信号调理复杂、系统集成度低等问题。TPAFE0808作为一款8通道模拟前端芯片,与PIC18F87K22微控制器的组合… 2026/7/5 0:01:32
STC3115与PIC18LF26K80构建高精度电池管理系统 1. STC3115与PIC18LF26K80在电池管理系统中的核心价值在现代电子设备中,电池管理系统(BMS)的重要性不亚于设备的核心处理器。STC3115作为一款高精度电池电量监测IC,与PIC18LF26K80微控制器的组合,构成了一个既能精确监控又能智能管理的完整解… 2026/7/5 0:05:36