逆天！Mata用13个参数26字节让模型正确率从76%飙升至91%

📅 发布时间：2026/7/3 11:49:05 👁️ 浏览次数：

逆天用13个参数26字节还没有一条短信长就教大模型提升数学推理能力。一个80亿参数的庞大语言模型就像一座储存了海量知识的宏伟图书馆。现在你需要教会它一项新技能——解数学应用题。传统方法需要对整个图书馆进行大规模的重新编目和装修耗费巨大。现在一种近乎魔法的方法只需调整区区13个参数给这座图书馆的大门换一把小小的、仅26字节的新锁就能让它解题的正确率从76%飙升至91%。这听起来不可思议却是Meta FAIR等机构研究人员刚刚发布的最新成果。他们提出了一种名为TinyLoRA的极致微调技术配合强化学习能够在几乎不改变大模型原有身体的情况下仅用极少数参数甚至单个参数就显著激发其推理能力。这不仅挑战了我们对模型训练所需数据量的认知更揭示了大型模型内部蕴藏的、等待被点亮的潜在知识结构。从百万到个位数的参数革命为了让大模型学会思考和推理主流方法是在大量示例上进行监督微调SFT或者通过强化学习RL让模型在试错中优化。即便是为了节省计算资源而广泛使用的参数高效微调方法如低秩适配LoRA也需要更新数百万乃至数千万的参数。举个例子对于一个拥有80亿参数的模型使用最小的LoRA设置秩为1也需要训练大约300万个适配器参数。这已经是巨大的节省了但研究人员提出了更极致的追问真的需要这么多吗这就像要给一台精密的机器校准一个新功能。传统LoRA是更换了机器内部成百上千个关联的齿轮组尽管是低秩的。而新的思路是也许只需要拧紧或松开几个最关键的核心螺丝就能实现相同的功能调整。TinyLoRA就是这把可以精准调节到单个螺丝的螺丝刀。它的核心思想是在LoRA-XS等方法的基础上进一步压缩。LoRA-XS已经尝试只学习如何重新组合模型权重中最重要的几个主方向。TinyLoRA则更进一层它不再为模型中每一个需要调整的线性层都配备独立的可训练矩阵而是引入一个极小的可训练向量并通过一个固定的随机投影将这个向量的影响力分配到所有目标层上。通过跨层、跨模块共享这个微小向量可训练参数的数量可以急剧减少。在极端情况下整个模型的所有适配层都共享同一个可训练标量值。也就是说只用一个参数就能对百亿规模的模型进行定向微调。TinyLoRA 数学推理上的表现如此微小的参数更新为何能奏效关键在于训练方法。研究发现这种螺丝刀式的微调只有在强化学习RL的框架下才能发挥奇效如果使用传统的监督微调SFT效果会大打折扣。论文通过理论分析指出SFT需要模型吸收训练数据中大量的比特信息其中只有一小部分与提升任务性能真正相关。而RL提供的奖励信号虽然数据量看起来更大因为要采样多个模型输出但其有效信息高度浓缩在简单的奖励值里。这种高密度的、干净的信号使得模型能够用极小的参数更新容量就捕捉到行为模式需要调整的关键方向。使用强化学习GRPO算法Qwen2.5-7B模型仅用13个参数微调准确率就从76%提升到了91%。而使用SFT同样的13个参数带来的提升微乎其微准确率仅达到83%。RL模型用120个参数就能达到95%的准度而SFT模型在同等参数规模下远不能及。研究人员在多个数学推理基准上测试了TinyLoRA。在更复杂的数学数据集如MATH、AIME美国数学邀请赛、AMC美国数学竞赛上这种极简微调依然保持了强大的性能。例如使用Qwen-2.5-7B模型仅针对196个参数进行TinyLoRAGRPO微调就能在六个高难度数学基准上平均保留其完整微调所带来的87%的性能增益。研究还观察到了一个重要趋势模型越大对这种螺丝刀微调越敏感。更大的预训练模型似乎内部已经编码了解决问题所需的大部分知识微调要做的更像是调整它的输出风格或解题习惯比如学习生成更长、更循序渐进的推理步骤。这项工作恰好只需要极小的参数干预就能实现。在字节约束下的巧妙设计在比较不同模型家族时出现了有趣的差异。Qwen2.5系列模型在极小参数更新规模下表现出了比LLaMA-3系列更高的可塑性和效率。例如在GSM8K任务上Qwen2.5-7B仅用1个参数微调就能获得约5%的绝对提升从基线77%到82%左右。而LLaMA-3在参数少于5个时性能提升几乎可以忽略。要达到相近的性能水平Qwen所需更新的参数数量大约是LLaMA的十分之一。这种差异可能源于两者在模型架构、预训练数据或对齐过程上的不同。当参数少到几十上百个时另一个实际问题浮出水面如何优化这有限比特的存储和通信效率毕竟在分布式训练中更新参数的通信开销可能是瓶颈。研究人员探索了不同的参数共享策略按模块类型结构化共享或者不分类型、仅按网络深度平铺式共享。结果出人意料平铺式共享让相邻层的所有模块共享参数的效果更好。强迫同一类型的投影矩阵共享参数并没有带来额外好处。另一个反直觉的发现是在总字节数固定的情况下使用fp32精度存储这极少的参数其性能竟然优于使用bf16或fp16精度尽管fp32占用双倍字节。这或许说明对于如此精细和关键的超小型参数更高的数值精度至关重要。对未来的启示与局限这项研究打开了一扇新窗口让我们重新思考大模型微调的本质。一种合理的解释是对于许多任务尤其是数学推理解决能力所需的核心知识已经存在于大规模预训练模型的参数之中。后续的微调特别是基于奖励的强化学习微调主要作用不是注入新知识而是激活和引导模型以正确的方式运用已有知识调整其输出模式和解题风格。这个过程对参数变化的分辨率要求可以非常低。随着模型规模继续向万亿乃至更大级别迈进用极其参数高效的方法来定制和控制它们将成为必然趋势。未来为特定任务部署一个高度专业化的大模型可能真的只需要传输和加载一个几KB大小的适配器钥匙。当然目前的发现主要局限在数学推理领域。数学问题具有相对明确的答案和验证方式奖励信号清晰。这种极简微调方法在需要更多创造性、开放性或者模糊评价标准的领域如创意写作、复杂科学研究是否依然有效还有待探索。TinyLoRA向我们展示了一个激动人心的前景大语言模型的推理能力可以通过调整少得惊人的参数被有效激发。它像一把精巧的钥匙用几十字节的成本就能打开模型内部潜藏的宝库。这项技术不仅大幅降低了模型定制化的存储和计算门槛更深化了我们对模型如何学习、知识如何被表征的理解。它清晰地表明对于这些庞然大物般的AI有时最优雅的引导方式并非大刀阔斧的重建而是精准而克制的点拨。当模型的知识已经就位我们所要做的或许只是给它一个正确的提示音。参考资料https://arxiv.org/pdf/2602.04118

相关新闻

最新新闻

日新闻

周新闻

月新闻