逆天!Mata用13个参数26字节让模型正确率从76%飙升至91% 📅 发布时间:2026/7/3 11:49:05 👁️ 浏览次数: 逆天用13个参数26字节还没有一条短信长就教大模型提升数学推理能力。一个80亿参数的庞大语言模型就像一座储存了海量知识的宏伟图书馆。现在你需要教会它一项新技能——解数学应用题。传统方法需要对整个图书馆进行大规模的重新编目和装修耗费巨大。现在一种近乎魔法的方法只需调整区区13个参数给这座图书馆的大门换一把小小的、仅26字节的新锁就能让它解题的正确率从76%飙升至91%。这听起来不可思议却是Meta FAIR等机构研究人员刚刚发布的最新成果。他们提出了一种名为TinyLoRA的极致微调技术配合强化学习能够在几乎不改变大模型原有身体的情况下仅用极少数参数甚至单个参数就显著激发其推理能力。这不仅挑战了我们对模型训练所需数据量的认知更揭示了大型模型内部蕴藏的、等待被点亮的潜在知识结构。从百万到个位数的参数革命为了让大模型学会思考和推理主流方法是在大量示例上进行监督微调SFT或者通过强化学习RL让模型在试错中优化。即便是为了节省计算资源而广泛使用的参数高效微调方法如低秩适配LoRA也需要更新数百万乃至数千万的参数。举个例子对于一个拥有80亿参数的模型使用最小的LoRA设置秩为1也需要训练大约300万个适配器参数。这已经是巨大的节省了但研究人员提出了更极致的追问真的需要这么多吗这就像要给一台精密的机器校准一个新功能。传统LoRA是更换了机器内部成百上千个关联的齿轮组尽管是低秩的。而新的思路是也许只需要拧紧或松开几个最关键的核心螺丝就能实现相同的功能调整。TinyLoRA就是这把可以精准调节到单个螺丝的螺丝刀。它的核心思想是在LoRA-XS等方法的基础上进一步压缩。LoRA-XS已经尝试只学习如何重新组合模型权重中最重要的几个主方向。TinyLoRA则更进一层它不再为模型中每一个需要调整的线性层都配备独立的可训练矩阵而是引入一个极小的可训练向量并通过一个固定的随机投影将这个向量的影响力分配到所有目标层上。通过跨层、跨模块共享这个微小向量可训练参数的数量可以急剧减少。在极端情况下整个模型的所有适配层都共享同一个可训练标量值。也就是说只用一个参数就能对百亿规模的模型进行定向微调。TinyLoRA 数学推理上的表现如此微小的参数更新为何能奏效关键在于训练方法。研究发现这种螺丝刀式的微调只有在强化学习RL的框架下才能发挥奇效如果使用传统的监督微调SFT效果会大打折扣。论文通过理论分析指出SFT需要模型吸收训练数据中大量的比特信息其中只有一小部分与提升任务性能真正相关。而RL提供的奖励信号虽然数据量看起来更大因为要采样多个模型输出但其有效信息高度浓缩在简单的奖励值里。这种高密度的、干净的信号使得模型能够用极小的参数更新容量就捕捉到行为模式需要调整的关键方向。使用强化学习GRPO算法Qwen2.5-7B模型仅用13个参数微调准确率就从76%提升到了91%。而使用SFT同样的13个参数带来的提升微乎其微准确率仅达到83%。RL模型用120个参数就能达到95%的准度而SFT模型在同等参数规模下远不能及。研究人员在多个数学推理基准上测试了TinyLoRA。在更复杂的数学数据集如MATH、AIME美国数学邀请赛、AMC美国数学竞赛上这种极简微调依然保持了强大的性能。例如使用Qwen-2.5-7B模型仅针对196个参数进行TinyLoRAGRPO微调就能在六个高难度数学基准上平均保留其完整微调所带来的87%的性能增益。研究还观察到了一个重要趋势模型越大对这种螺丝刀微调越敏感。更大的预训练模型似乎内部已经编码了解决问题所需的大部分知识微调要做的更像是调整它的输出风格或解题习惯比如学习生成更长、更循序渐进的推理步骤。这项工作恰好只需要极小的参数干预就能实现。在字节约束下的巧妙设计在比较不同模型家族时出现了有趣的差异。Qwen2.5系列模型在极小参数更新规模下表现出了比LLaMA-3系列更高的可塑性和效率。例如在GSM8K任务上Qwen2.5-7B仅用1个参数微调就能获得约5%的绝对提升从基线77%到82%左右。而LLaMA-3在参数少于5个时性能提升几乎可以忽略。要达到相近的性能水平Qwen所需更新的参数数量大约是LLaMA的十分之一。这种差异可能源于两者在模型架构、预训练数据或对齐过程上的不同。当参数少到几十上百个时另一个实际问题浮出水面如何优化这有限比特的存储和通信效率毕竟在分布式训练中更新参数的通信开销可能是瓶颈。研究人员探索了不同的参数共享策略按模块类型结构化共享或者不分类型、仅按网络深度平铺式共享。结果出人意料平铺式共享让相邻层的所有模块共享参数的效果更好。强迫同一类型的投影矩阵共享参数并没有带来额外好处。另一个反直觉的发现是在总字节数固定的情况下使用fp32精度存储这极少的参数其性能竟然优于使用bf16或fp16精度尽管fp32占用双倍字节。这或许说明对于如此精细和关键的超小型参数更高的数值精度至关重要。对未来的启示与局限这项研究打开了一扇新窗口让我们重新思考大模型微调的本质。一种合理的解释是对于许多任务尤其是数学推理解决能力所需的核心知识已经存在于大规模预训练模型的参数之中。后续的微调特别是基于奖励的强化学习微调主要作用不是注入新知识而是激活和引导模型以正确的方式运用已有知识调整其输出模式和解题风格。这个过程对参数变化的分辨率要求可以非常低。随着模型规模继续向万亿乃至更大级别迈进用极其参数高效的方法来定制和控制它们将成为必然趋势。未来为特定任务部署一个高度专业化的大模型可能真的只需要传输和加载一个几KB大小的适配器钥匙。当然目前的发现主要局限在数学推理领域。数学问题具有相对明确的答案和验证方式奖励信号清晰。这种极简微调方法在需要更多创造性、开放性或者模糊评价标准的领域如创意写作、复杂科学研究是否依然有效还有待探索。TinyLoRA向我们展示了一个激动人心的前景大语言模型的推理能力可以通过调整少得惊人的参数被有效激发。它像一把精巧的钥匙用几十字节的成本就能打开模型内部潜藏的宝库。这项技术不仅大幅降低了模型定制化的存储和计算门槛更深化了我们对模型如何学习、知识如何被表征的理解。它清晰地表明对于这些庞然大物般的AI有时最优雅的引导方式并非大刀阔斧的重建而是精准而克制的点拨。当模型的知识已经就位我们所要做的或许只是给它一个正确的提示音。参考资料https://arxiv.org/pdf/2602.04118
小程序毕设项目:基于springboot+小程序的在线文创产品订购平台小程序(源码+文档,讲解、调试运行,定制等) 博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am… 2026/5/17 3:41:01
【课程设计/毕业设计】基于springboot+小程序的在线文创产品订购平台小程序在线浏览购买文创产品、了解产品背后的文物故事【附源码、数据库、万字文档】 博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am… 2026/5/17 3:41:00
计算机小程序毕设实战-基于springboot+小程序的智慧心理咨询服务系统小程序知识推送、智能预基于微信小程序的智慧心理咨询服务系统心理学知识【完整源码+LW+部署说明+演示视频,全bao一条龙等】 博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am… 2026/5/17 3:40:58
Meta的“算力淘宝”计划:AI算力过剩如何撬动万亿云市场? 引言:当算力霸主考虑“零售”当全球科技巨头为AI GPU一卡难求时,坐拥数十万块顶级芯片的Meta,却可能正面临“算力过剩”的甜蜜烦恼。这家公司不再满足于仅为自家社交帝国服务,而是计划将部分顶级AI算力“零售”给外部客户。这有可… 2026/7/3 11:47:54
Claude实战:藏了个“自动驾驶“模式,90%的人居然没用过 用AI最累的不是让它干活,是盯着它干活。/goal 解决了这个问题:你定规则,它自己跑,跑偏了自动修正,达标了自动停。/goal 可能是Claude Code里最能拉开效率差距的一个命令。会用的人设好目标去洗澡,回来活干完了;不会的人要么根本不知道它的存在,要么写了个模糊条件让AI原… 2026/7/3 11:45:53
IDEA文件头模板配置全指南(2024最新版·JetBrains官方未公开技巧) 更多请点击: https://kaifayun.com 第一章:IDEA文件头模板的核心价值与适用场景 文件头模板是 IntelliJ IDEA 中提升代码规范性与团队协作效率的关键基础设施。它不仅自动注入标准化的版权信息、作者署名与创建时间,更在项目初始化、模块拆分… 2026/7/3 11:43:52
廊坊市知名 GEO 公司大揭秘!这些宝藏公司不容错过 在当今数字化时代,GEO 优化的重要性日益凸显。廊坊市作为新兴的科技发展地区,有不少知名的 GEO 公司,赞相科技便是其中的佼佼者。接下来,让我们一起深入了解。GEO 优化:数字营销新趋势GEO 优化是面向国内主流大模型、智… 2026/7/3 11:39:50
基于Spring Boot与Vue的若依电商平台技术架构评估与实施指南 基于Spring Boot与Vue的若依电商平台技术架构评估与实施指南 【免费下载链接】ruoyi-mall 一个基于若依框架,SringBoot2MybatisPlusSpringSecurityjwtredisVueTaro的前后端分离的商城系统, 包含分类、sku、商户管理、分销、会员、适合企业或个人二次开发… 2026/7/3 11:39:50
搜极星破局,InsGEO闭环:GEO竞品监测的两级跃迁 导语: GEO数据监测工具是否能做竞品对比?答案是肯定的,但关键在于工具能否从品牌可见度、TOP3/TOP1占位、AI认知份额、情感倾向、信源引用等多个维度,持续监测本品与竞品在AI大模型回答中的真实表现。从实际测评角度看,… 2026/7/3 11:35:49
如何5分钟快速上手XUnity.AutoTranslator:打破语言障碍的游戏翻译神器终极指南 如何5分钟快速上手XUnity.AutoTranslator:打破语言障碍的游戏翻译神器终极指南 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 你是否曾经因为语言障碍而错过精彩的游戏剧情?面对日… 2026/7/3 0:01:58
3种策略管理Playnite便携版:从基础部署到高级维护的完整指南 3种策略管理Playnite便携版:从基础部署到高级维护的完整指南 【免费下载链接】Playnite Video game library manager with support for wide range of 3rd party libraries and game emulation support, providing one unified interface for your games. 项目地址… 2026/7/3 0:05:59
2026江苏三维扫描仪定制厂家:一条很现实的分水岭——“会用”和“用对” 在江苏制造业的三维扫描项目里,有一个很容易被忽略的分界线: 👉 会用设备,不等于用对设备。 尤其在江苏GOM三维扫描仪定制厂家、江苏蔡司3D扫描仪定制厂家项目中,这条分界线会直接决定系统最终是“工具”,还… 2026/7/3 0:07:59