Yann LeCun非生成世界模型前瞻:开年三篇论文展示JEPA工程化拐点

📅 发布时间:2026/7/3 21:23:00 👁️ 浏览次数:
Yann LeCun非生成世界模型前瞻:开年三篇论文展示JEPA工程化拐点
2022年Yann LeCun提出联合嵌入预测架构 (Joint Embedding Predictive ArchitectureJEPA)杨立昆路线的新胜利VL-JEPA来了抛弃预测下一个词不靠生成照样SOTA。2026年Yann LeCun团队3篇论文展示了基于 JEPA 框架的非生成世界模型工程化拐点。让预测从像素表演退场让语义和控制走上主舞台。三篇论文像同一张地图的三条等高线Rectified LpJEPA把JEPA的表示做得更像大脑的稀疏放电GRASP梯度松弛随机规划器把长时域规划从串行推演改成并行求解EB-JEPA能量式JEPA轻量库把整套方法装进可复用的代码积木。它们合在一起给Yann LeCun提出的非生成式世界模型提供了一条更省算力、更可控、更能落地的技术路线。稀疏的Rectified LpJEPA让表示更省力JEPA联合嵌入预测架构把学习的焦点放在表示空间它更关心语义是否稳定而非像素是否逼真。为了防止坍缩过去常见做法是把表示分布拉向各向同性高斯。各向同性高斯很干净也很吵闹。每个维度都被鼓励保持连续的数值表示天然偏向稠密和生物神经元那种大多数时间沉默、少数时间放电的节奏不合拍。Rectified LpJEPA把问题换了一个问法。它把稀疏性当作表示应该自带的结构而不是训练后期才靠剪枝补救。论文提出RDMReg整流分布匹配正则用切片的两样本分布匹配把表示对齐到RGG整流广义高斯这一族分布。直觉很像把一团复杂的高维云雾沿着很多随机方向切成一叠一维影子再逐片校准影子的形状。RGG靠整流把大量维度推到0附近ReLU线性整流单元在这里不再只是网络里的激活函数更像一把把信号推到正半轴的闸门。RGN整流高斯分布是RGG的一个特例它让稀疏与非负变成可控的目标而不是偶然的副产物。防坍缩仍然要做而且要做得克制。论文把最大熵原则放进约束里在期望的ℓp规模与稀疏度边界内让分布尽量保持随机性这让表示既有骨架也保留了表达空间的呼吸感。下面是ImageNet-100线性探针结果。表里Acc1越高越好L1 Sparsity与L0 Sparsity越低越稀疏。表里最醒目的对比来自L0 Sparsity。VICReg与LeJEPA这类稠密基线的L0为1.0000Rectified LpJEPA可以把L0压到0.6940甚至压到0.0224或0.0098同时编码器Acc1仍维持在82.02到85.08之间。SIGReg切片信息高斯正则曾用随机投影把高维分布匹配转为一维问题Rectified LpJEPA沿着同一条思路继续走只是把目标分布从高斯换成了更贴近稀疏表示的RGG。它把JEPA的世界模型底座向类脑表征推了一步。GRASP把长时域规划改成并行求解世界模型一旦能预测下一个问题立刻冒出来怎么用预测做规划。长时域任务里路径往往要先绕远路才到终点贪心更新很容易把自己锁死。GRASP梯度松弛随机规划器把一条长轨迹拆成一组可并行优化的虚拟状态并用软动力学约束把它们和世界模型连接起来。想象在时间轴上放一串临时站点先允许站点不完全守规矩再在优化里把它们拉回到可行轨道。并行化来自一个简单的算术事实。串行rollout必须等t步算完才有t1步虚拟状态把所有t步同时摆上桌面计算被自然地摊开。为了探索GRASP给虚拟状态加噪声。噪声像是在地图上多画几条备选小路帮优化跳出局部凹坑。另一个关键动作是停止状态梯度只保留动作梯度。视觉世界模型的状态空间高维且脆弱状态梯度很容易变成可被利用的捷径动作梯度相对更稳。图a中纵轴是到目标的平均平方范数距离横轴是时间t。曲线出现回升路径在靠近目标前先拉远距离这类轨迹在带障碍的长时域任务里并不罕见。GD梯度下降的地形更崎岖GRASP的设计目标是把优化地形变得更平滑从而减少被局部极小值卡住的概率。下面是Push-T任务的长时域开环规划结果单元格为成功率百分比与成功样本的中位完成时间。当H拉到80GRASP的成功率10.4高于CEM的2.8与GD的6.4同时中位时间58.9s低于CEM的132.2s与GD的161.3s。它把并行带来的速度收益与随机探索带来的稳健性放在同一张账单上结算。短时域里GRASP在Push-T H30的成功率75.2接近CEM的76.0中位时间9.1s低于CEM的23.6s。它把长时域的结构优势带进了短时域的速度竞争。EB-JEPA把非生成式世界模型落到代码EB-JEPA能量式JEPA轻量库想解决的是上手门槛。它把JEPA方法中常见的组件拆成模块让研究者能在单块GPU的规模下复现实验与做消融。论文把链路写得很直白。图像表征学习在CIFAR-10CIFAR-10数据集上跑通视频多步预测在Moving MNIST移动手写数字数据集上展示长期滚动的稳定性动作条件世界模型在Two Rooms双房间环境里做目标条件规划。它把生成式路线里的像素重建负担放下把计算花在表示空间的可预测性上。表示更像地图像素更像地砖建城要先画地图。图中第一行是真实序列后两行是解码后的预测结果与完整rollout。它把多步预测的误差累积可视化成模糊与形变训练时引入k步预测的动机也更直观。EB-JEPA把正则化当作核心结构而不是锦上添花。SIGReg切片信息高斯正则与VICReg方差协方差正则在这里像两组护栏防止表示坍缩。表格的w/o Projector一列把投影头的重要性写得很直白。它不是装饰它直接给线性探针带来约3个点的增益。SIGReg只需要一个λ就能跑完这一轮对比VICReg需要同时调std与cov。它不分高下但在工程上体现了调参成本的差异。走到动作条件世界模型规划层的对比把非生成式路线的价值落到数字上。MPPI信息路径积分与CEM交叉熵方法在同一个成本设计下做比较模型组件消融把坍缩风险暴露得很直接。IDM逆动力学模型被拿掉后成功率落到1 ± 1%。它像一张动作与状态变化之间的对照表缺了它表示容易被伪相关带跑偏。Rectified LpJEPA把表示的分布目标从稠密高斯挪到可控稀疏的RGG让表示更像可用的内部符号系统。GRASP把规划从长链条的反向传播里拎出来改用虚拟状态与软约束做并行优化让长时域不再被串行rollout拖住。EB-JEPA把方法论写进可运行的代码把能量式JEPAEnergy-Based JEPA能量式联合嵌入预测架构变成可复用的组件集合。它也顺手给了一条研究节奏先在小规模里把结构做对再去更复杂的世界里扩张。非生成式世界模型把算力从像素重建转向表示预测正则化把表示从坍缩边缘拉回可用结构规划算法把控制问题从不稳定梯度里换到更平滑的优化地形。下一步的难点更像工程与理论的交界处。表示要更稀疏也要更可控规划要更长也要更稳库要更轻也要更通用。参考资料https://arxiv.org/pdf/2602.01456https://arxiv.org/pdf/2602.00475https://arxiv.org/pdf/2602.03604