Stable-DiffCoder超越自回归模型!扩散模型在代码生成取得新突破 📅 发布时间:2026/7/4 12:21:43 👁️ 浏览次数: 近日华中科技大学和字节跳动联合推出了 Stable-DiffCoder。这不仅仅是一个新的扩散代码模型更是一次关于 「扩散训练能否提升模型能力上限」 的深度探索。扩散语言模型Diffusion Language Models, DLLMs因其多种潜在的特性而备受关注如能加速的非自回归并行生成特性能直接起草编辑的特性能数据增强的特性。然而其模型能力往往落后于同等规模的强力自回归AR模型。近日华中科技大学和字节跳动联合推出了 Stable-DiffCoder。这不仅仅是一个新的扩散代码模型更是一次关于 「扩散训练能否提升模型能力上限」 的深度探索。Stable-DiffCoder 在完全复用 Seed-Coder 架构、数据的条件下通过引入 Block Diffusion 持续预训练CPT及一系列稳定性优化策略成功实现了性能反超。在 多个 Code 主流榜单上如 MBPPBigCodeBench 等它不仅击败了其 AR 原型更在 8B 规模下超越了 Qwen2.5-Coder Qwen3DeepSeek-Coder 等一众强力开源模型证明了扩散训练范式本身就是一种强大的数据增强手段。论文标题Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model论文链接: https://arxiv.org/pdf/2601.15892Github 链接: https://github.com/ByteDance-Seed/Stable-DiffCoder模型链接: https://huggingface.co/collections/ByteDance-Seed/stable-diffcoder扩散过程难以高效学习样本知识扩散过程虽然表面上可以扩充很多数据可以作为一个数据增强的手段但是实际上会引入很多噪声甚至错误知识的学习。例如下面的例子将其 mask 成可以发现对于最后一个 mask_n其只能在看见 a1b2 的情况下去学习 ab7会形成错误的知识映射。最后充其量也只能学到a3b4 在 ab 这个语境下的共现概率更大一点不能学到明确的加法规则。token 推理的知识和流程设计论文通过建模这个知识的学习来解释这个现象假设 c 是当前可见的样本根据真实分布通过这些样本在当前位置能够推理出的 token 集合为 C (c)大小为 K (c)这里多个 token 同时推理的情景一致因此只简单的考虑单个 token 推理。由于使用的真实分布来定义的所以 c 越多越干净的时候K (c) 越小。可以知道模型最后希望学习的分布是而要学好这个过程需要满足两个条件1K (c) 比较小2从数据中采样的 c 要尽可能多。因此如果用纯双向的扩散过程在 mask 比例较大的时候当前 token 见到的 c 变小不干净的概率变大导致 K (c) 变大难以映射到清晰的规则。同时其会产生会产生各种各样的 c平均每个 c 的学习量会减小。另外还要保证训练采样的 c 跟推理用的 c 是一致的才能更好的使用训练学习的知识。接下来论文通过在 2.5B 的模型设计实验来进一步阐释并证明这个结论。论文从一个 AR model 初始化然后训练一段新的知识。论文设计了 3 个训练方式来探索1AR-BiDLLM: 用 AR 的方式继续训练在 100k step 的时候 CPT 成双向的 DLLM。2ARDLLM-BiDLLM: 用 AR 的结构但是使用纯双向的采样模式来训练。然后 100k step CPT 成 BiDLLM。3BiDLLM使用纯双向的 DLLM 训练。可以发现最后效果是123这也符合前面的理论。不用随机 [MASK] 的1方案对于知识有更快的压缩速度并且转换成 BiDLLM 也保持着最佳性能这可以证明在要高效的学好一个 DLLM可以用 AR 或者小 block size 的 block diffusion 来进行知识压缩。另外有趣的是在 block32 时1和2的表现比3差但是在 100k 之后表现比3好。100k 之前可以说明AR 采样的 c 跟 block size32 推理过程的 c 不太匹配但是由于 AR 压缩了大量有用的知识稍微 CPT 一下就能适配这种推理过程。同时也可以说明AR 这种结构的先验可能更适合 promptresponse 这种从左侧开始推理的过程。因此我们将训练流程设计为先用 AR 压缩一遍知识然后用 AR 退火的前一个 checkpoint 继续 CPT 成小 block 的 block diffusion来探索 diffusion 过程的数据增强能力。稳定的 DLLM warmup 策略持续预训练设计扩散模型的持续预训练通常对超参数的设计如学习率非常敏感容易出现 grad norm 的异常变高这也会受到各种训练架构的影响。为了保持各种训练架构的学习稳定以及繁杂的调参过程团队设计了一种适配的 warmup 策略。DLLM 的 CPT 过程不稳定主要受到下面 3 个原因影响1Attention 从单向变成双向2Mask 变多导致任务变得很难3为了对齐 ELBO会在交叉熵前面乘上加权系数。比如只 mask 了一个 token会等价于只计算了这个 token 的 loss会大幅增大这个 token 对于梯度的影响进而影响 grad norm 和 loss。由于退火 attention 的方式难以灵活适配 flash attention 等架构该团队针对23来设计 warmup 过程。具体的在 warmup 阶段将 mask 比例上界逐渐 warmup 到最大值从而使得一开始任务从易变难。其次在 warmup 阶段去掉交叉熵中加权的系数从而让每个 token 对 loss 的影响更平稳Block-wise 截断的噪声调度在使用 block diffusion 时由于通过 cross attention 拼接了干净的前缀可以使得每个 token 都产生有用的 loss。然而如果使用传统的 noise schedule 会使得有些块不产生 loss 信号通过求解积分可以算出 block 不产生信号的概率如下这在小 block 时会特别明显因此团队做了两个设计1强制每个块都采样一个 token2将 noise 采样下界设置为 1/B这样可以使得至少期望采样一个 token。同时可以避免强制采样 1 个 token 之后原本对应的 t 过小从而使得交叉熵加权过大的问题。实验结果多个代码 benchmark 在 8B 左右的模型保持领先对于 Base 模型Stable-DiffCoder-8B-Base 在代码生成多代码语言生成代码推理上表现出色。超过一系列 AR 和 diffusion-based 的模型。另外可以发现模型在稀疏代码语言上如 C#PHP 等预训练中数据较少相比于 AR baseline 得到了大幅增强可以证明 DLLM 的训练过程起到了一定的数据增强的效果。同时在代码推理能力上也得到了增强。对于 Instruct 模型Stable-DiffCoder-8B-Instruct 在代码生成代码编辑代码推理等任务上做了综合评测并有着优越的表现。其中在常用的任务humanevalmbpp上大幅超过原有 AR baseline 和其他 8B 左右的 DLLM model。在测试集闭源的 MHPP 达到 qwen32B 的水平BigCodeBench 上更是超过一系列模型并仅次于 DeepSeek236B 的模型。同时在代码编辑 CanItEdit 任务上更是有着惊艳的效果。总结与展望Stable-DiffCoder 的发布打破了 「扩散模型只能做并行加速」 的刻板印象。它证明了扩散训练范式本身就是一种极佳的表征学习手段。通过合理的课程设计及稳定性优化扩散模型完全可以在代码理解和生成质量上超越传统的 AR 模型。对于未来的大模型演进Stable-DiffCoder 提示了一条新路径也许我们不需要抛弃 AR而是将 AR 作为高效的知识压缩器再利用 Diffusion 作为 「强化剂」进一步推高模型的智能上限。
pgAgent创建job 1.在安装postgresql的时候,要选择pgagent如下图所示2.打开pgadmin找到pgagent3.设置job名称4.设置步骤5.设置连接字符串,不设置正确的话,job会不运行的6.在code中编写需要执行的sql语句7.设置schedules 我设置的是每天凌晨3:05分执… 2026/7/3 23:28:40
前端编程 课程十六、:CSS 盒子模型 本阶段目标彻底理解CSS盒子模型的组成、尺寸计算方式和内外边距的使用,能精准控制元素的大小和位置,解决“元素尺寸和预期不符”“元素间距无法控制”的布局难题,为后续Flex、Grid布局打牢基础。学习节奏:按「模型认知 → 组成拆解… 2026/5/17 2:48:39
毕业论文神器 9个AI论文工具深度测评:本科生高效写作必备指南 随着学术研究的不断深入,越来越多的本科生在撰写毕业论文时面临内容构思困难、文献资料查找繁琐、格式规范不熟悉等挑战。为了帮助广大学生更高效地完成论文写作,笔者基于2026年的实测数据与用户反馈,对市面上主流的AI论文工具进行了系统测评… 2026/5/17 2:48:39
AI学习(2)——补:linux自启动llama 开机自启动 创建自启动脚本样本 (之前已说明,不过多赘述) #!/bin/bash# 1. 初始化 Conda (请将路径替换为你实际的 miniconda/anaconda 安装路径) source /home/wuakaka/anaconda3/etc/profile.d/conda.sh# 2. 激活指定的虚拟环境 conda acti… 2026/7/5 3:33:03
跟我一起进行KiCad设计(五):从零到一的PCB实战布局与布线 1. 从原理图到PCB的关键第一步当你完成原理图设计后,激动人心的PCB设计阶段就开始了。我清楚地记得第一次使用KiCad时,面对空白的PCB画布那种既兴奋又忐忑的心情。别担心,跟着我的步骤走,你也能顺利完成这个转变。首先点击工具栏的… 2026/7/5 3:27:02
PW7120+PW8205A8TS*3两串锂电池充放电保护板方案,持续4.5A,过流保护13.5A 概述 本保护板采用平芯微自研PW7126保护芯片,搭配PW80N03 2 MOS管,为3S(三节串联锂电池组11.1V,12.6V满充)锂电池组提供完整的过充、过放、过流及短路保护。持续放电电流7A,过流保护阈值约10A。主控芯片介… 2026/7/5 3:23:00
系统架构技能之设计模式-抽象工厂模式 上篇回顾 上篇我们主要讲述了简单工厂模式和工厂模式。并且分析了每种模式的应用场景和一些优缺点,我们现在来回顾一下: 简单工厂模式:一个工厂负责所有类型对象的创建,不支持无缝的新增新的类型对象的创建。 工厂模式:… 2026/7/5 3:20:59
【全网最详细】Inventor 2027下载免费版 Inventor三维机械设计软件安装图解(2026最新) 文章目录前言Inventor 2027 下载Inventor 2027 安装教程Inventor 2027怎么创建参数化零件?一步步教你操作步骤前言 说到三维机械设计,搞过工业建模的朋友对 Autodesk Inventor 应该不陌生。Inventor Professional 2027(简称 Inventor Pro 20… 2026/7/5 3:20:59
多层金属的“异质变形“为什么是矫平工艺的终极难题? 在金属板材加工领域,复合板(又称金属层状复合材料)正越来越多地应用于石油化工、海洋工程、核电和食品制药等行业。校平机作为消除板材残余应力、恢复平整度的关键设备,在面对复合板时遇到了与单质金属完全不同的技术挑战。复合板… 2026/7/5 3:16:58
6个月转型AI工程师:实战路径与核心技能 1. 项目概述:6个月转型AI工程师的可行性路径在2023年大模型技术爆发的背景下,AI工程师岗位需求同比增长217%(LinkedIn数据)。不同于传统算法工程师需要3-5年培养周期,现代AI工程师更侧重工程化落地能力。我在硅谷科技公… 2026/7/5 0:01:32
TPAFE0808与PIC18F87K22的多通道信号采集方案 1. 项目背景与核心需求在工业自动化、医疗设备和科研仪器等领域,多通道信号采集与系统监测是基础且关键的技术需求。传统方案往往面临通道数量不足、信号调理复杂、系统集成度低等问题。TPAFE0808作为一款8通道模拟前端芯片,与PIC18F87K22微控制器的组合… 2026/7/5 0:01:32
STC3115与PIC18LF26K80构建高精度电池管理系统 1. STC3115与PIC18LF26K80在电池管理系统中的核心价值在现代电子设备中,电池管理系统(BMS)的重要性不亚于设备的核心处理器。STC3115作为一款高精度电池电量监测IC,与PIC18LF26K80微控制器的组合,构成了一个既能精确监控又能智能管理的完整解… 2026/7/5 0:05:36
6个月转型AI工程师:实战路径与核心技能 1. 项目概述:6个月转型AI工程师的可行性路径在2023年大模型技术爆发的背景下,AI工程师岗位需求同比增长217%(LinkedIn数据)。不同于传统算法工程师需要3-5年培养周期,现代AI工程师更侧重工程化落地能力。我在硅谷科技公… 2026/7/5 0:01:32
TPAFE0808与PIC18F87K22的多通道信号采集方案 1. 项目背景与核心需求在工业自动化、医疗设备和科研仪器等领域,多通道信号采集与系统监测是基础且关键的技术需求。传统方案往往面临通道数量不足、信号调理复杂、系统集成度低等问题。TPAFE0808作为一款8通道模拟前端芯片,与PIC18F87K22微控制器的组合… 2026/7/5 0:01:32
STC3115与PIC18LF26K80构建高精度电池管理系统 1. STC3115与PIC18LF26K80在电池管理系统中的核心价值在现代电子设备中,电池管理系统(BMS)的重要性不亚于设备的核心处理器。STC3115作为一款高精度电池电量监测IC,与PIC18LF26K80微控制器的组合,构成了一个既能精确监控又能智能管理的完整解… 2026/7/5 0:05:36