throw和throw ex的区别

📅 发布时间:2026/7/6 3:51:26 👁️ 浏览次数:
throw和throw ex的区别
颗嘏际稳论文列表359 Multi-granularity Knowledge Transfer for Continual Reinforcement Learning - 为持续 RL 而设计的多粒度知识迁移一、 研究背景与核心痛点The Gap二、 动机与故事线构建Motivation Narrative三、 审稿策略分析Positioning Strategy四、 方法合理性与技术细节Method Justification1. 架构分层协作HRL Structure2. 知识迁移机制策略库与符号化食谱3. 鲁棒性保障闭环反馈Closed-Loop Feedback769 BILE: An Effective Behavior-based Latent Exploration Scheme for Deep Reinforcement Learning - BILE一种有效的 Behavior-based 的 DRL latent 探索方案零、介绍-Bisimulation metric一、背景与挑战高维稀疏环境下的探索困境二、核心机制隐向量的作用与采样三、BILE 的关键技术创新鲁棒的行为度量学习3.1 度量的目标价值多样性3.2 鲁棒性机制引入预测误差四、BILE 与 METRA / ETD 的对比分析关键差异总结908 Imagination-Limited Q-Learning for Offline Reinforcement Learning - 用于 offline RL 的想象力限制的 Q-Learning一、引言offline RL 的挑战与现有困境二、ILQ 的叙事核心寻找“合理的乐观”三、核心方法想象力受限 Bellman 算子 (ILB)3.1 想象值 ()提供合理的乐观基准3.2 限制值 ()确保保守性与安全性四、ILQ 与 Model-Based RL的关系Model-Assisted 的 Model-Free RL五、结论与理论保障2430 Self-Consistent Model-based Adaptation for Visual Reinforcement Learning - 为视觉 RL 而设计的自我一致的 model-based 的自适应一、引言VRL 泛化的核心痛点二、故事核心denoise 输入而非重新训练策略三、preliminaries 与实验 setting 介绍四、SCMA 方法使用三个 loss function 无监督去噪五、实验结果与思考3591 Two-Stage Feature Generation with Transformer and Reinforcement Learning - 使用 Transformer 和强化学习进行两阶段特征生成3621 PNAct: Crafting Backdoor Attacks in Safe Reinforcement Learning - PNAct在 safe RL 中制作后门攻击3768 Efficient Diversity-based Experience Replay for Deep Reinforcement Learning - 为 DRL 设计的 基于 diversity 的高效 experience replay4744 Deduction with Induction: Combining Knowledge Discovery with Reasoning for Interpretable Deep Reinforcement Learning - 演论与归纳法将知识发现与推理相结合实现可解释的深度强化学习4997 From End-to-end to Step-by-step: Learning to Abstract via Abductive Reinforcement Learning - 从 end-to-end 到 step-by-step通过归纳Abductive强化学习 学习抽象5103 Efficient Multi-view Clustering via Reinforcement Contrastive Learning - 通过强化对比学习进行高效的多视图聚类359 Multi-granularity Knowledge Transfer for Continual Reinforcement Learning - 为持续 RL 而设计的多粒度知识迁移Continual reinforcement learning (CRL) empowers RL agents with the ability to learn a sequence of tasks, accumulating knowledge learned in the past and using the knowledge for problemsolving or future task learning. However, existing methods often focus on transferring fine-grained knowledge across similar tasks, which neglects the multi-granularity structure of human cognitive control, resulting in insufficient knowledge transfer across diverse tasks. To enhance coarse-grained knowledge transfer, we propose a novel framework called MT-Core (as shorthand for Multi-granularity knowledge Transfer for Continual reinforcement learning). MT-Core has a key characteristic of multi-granularity policy learning: 1) a coarsegrained policy formulation for utilizing the powerful reasoning ability of the large language model (LLM) to set goals, and 2) a fine-grained policy learning through RL which is oriented by the goals. We also construct a new policy library (knowledge base) to store policies that can be retrieved for multi-granularity knowledge transfer. Experimental results demonstrate the superiority of the proposed MT-Core in handling diverse CRL tasks versus popular baselines.background gap持续强化学习CRL使 RL 智能体能够学习一系列任务积累过去学到的知识并将这些知识用于解决问题或未来的任务学习。然而现有方法往往侧重于在相似任务之间传递细粒度知识而忽视了人类认知控制的多粒度结构导致不同任务之间的知识传递不足。method为了增强粗粒度的知识迁移我们提出了一种称为 MT-Core 的新框架作为持续强化学习的多粒度知识转移的简写。MT-Core 具有多粒度策略学习的一个关键特征1利用大语言模型LLM强大的推理能力设定目标的粗粒度策略制定2以目标为导向的 RL 细粒度策略学习。我们还构建了一个新的策略库知识库来存储可以检索的策略以进行多粒度的知识转移。exp实验结果表明与流行的基线相比所提出的 MT-Core 在处理各种 CRL 任务方面具有优越性。一、 研究背景与核心痛点The Gap传统的强化学习RL在解决复杂、长序列任务时面临两大核心挑战样本效率低下Low Sample Efficiency Agent 必须通过大量的试错Trial-and-Error从零开始学习每个新任务这在现实世界应用中成本极高。知识泛化困难Poor Generalization 现有的知识迁移方法如策略权重迁移通常是低级Sub-Symbolic的难以将经验鲁棒地应用于结构差异较大的新任务。目标设定 我们的目标是构建一个框架能够像人类一样通过知识检索和高层规划快速掌握新任务实现从纯粹的试错学习向基于知识的规划执行的范式转变。二、 动机与故事线构建Motivation Narrative该论文的动机和故事线构建巧妙将工作定位为解决上述 RL 核心痛点的新颖解决方案动机元素 核心论点Gap 解决方案的直觉Intuition效率 传统 RL 必须从头开始学习。 人类学习是基于知识和规划的。 引入 LLM 作为知识库和 planner可以将学习转化为高效的“检索历史信息 → 推理 high-level goal → 做出 low-level action”。泛化 传统知识迁移是 low-level 的、脆弱的。 高层知识是通用的。 迁移符号化、结构化的 planning 知识如一系列 high-level goal而非底层动作可以实现鲁棒的跨任务复用。规划 复杂任务规划和稀疏奖励难以处理。 LLM 是卓越的 planner。 利用 LLM 的常识推理能力将复杂任务分解为一系列可管理的子目标序列。总结 论文的叙事核心是不声称自己是“HRL 的 LLM 变体”而是“利用 LLM 实现高效、符号化知识迁移”的新范式。三、 审稿策略分析Positioning Strategy该论文 将自己定位为“知识迁移”工作同时利用 HRLhierarchical RL/ GCRLgoal-conditioned RL作为底层工具。核心定位知识迁移Knowledge Transfer。 这一主题具有广泛的吸引力直接针对 RL 的样本效率痛点。通过强调符号化、高层规划的迁移机制论文突出了范式的新颖性。规避竞争 通过强调知识迁移和 LLM 的实用性论文有效地弱化了其在纯粹的 HRL、GCRL 领域可能面临的方法新颖性 concern 和严格理论要求如收敛性证明。HRL / GCRL 审稿人视角 论文将 HRL / GCRL 视为实现其知识迁移目标的工具。它向 HRL 审稿人展示了如何利用 LLM 解决传统 HRL 的规划和奖励设计难题向 GCRL 审稿人展示了如何利用 LLM 自动生成复杂、逻辑化的目标序列。四、 方法合理性与技术细节Method Justification该方法的核心直觉是“分工协作优势互补”将高层规划交给 LLM将底层执行交给 RL Agent。1. 架构分层协作HRL Structure系统采用分层结构高层LLM Planner 负责将用户给定的复杂任务如“制作咖啡”分解为一系列符号化的子目标序列如[找到杯子][加水][按启动键]。低层RL Agent 负责执行具体的子目标使用一个目标条件策略来实现精细的连续控制。2. 知识迁移机制策略库与符号化食谱为了实现高效的知识复用系统引入了策略库Strategy Library知识存储 成功的任务经验被编码成符号化 Recipe即高层子目标的序列并存储在库中。知识检索与适应 当遇到新任务时LLM 通过语义检索找到最相关的 Recipe并利用其强大的上下文学习In-Context Learning能力对食谱进行微调和适应生成新任务的规划。3. 鲁棒性保障闭环反馈Closed-Loop Feedback为了防止 LLM 生成“幻想”的、不可执行的规划系统设计了闭环机制执行与验证 低层 Agent 在执行子目标时会根据环境观测和预设的成功条件进行验证。在线修正 如果低层执行失败失败的观测信息会被反馈给 LLMLLM 会通过 Prompt 进行在线推理和重新规划调整后续的子目标序列。例子 LLM 规划: [找到杯子]。Agent 执行失败。LLM 接收反馈后可能修正规划为: [搜索柜子]然后: [找到杯子]。总结 这种方法通过 HRL 实现了规划与执行的解耦通过策略库实现了知识的高效迁移并通过闭环反馈确保了 LLM 规划的物理合理性和鲁棒性。769 BILE: An Effective Behavior-based Latent Exploration Scheme for Deep Reinforcement Learning - BILE一种有效的 Behavior-based 的 DRL latent 探索方案Efficient exploration of state spaces is critical for the success of deep reinforcement learning (RL). While many methods leverage exploration bonuses to encourage exploration instead of relying solely on extrinsic rewards, these bonus-based approaches often face challenges with learning efficiency and scalability, especially in environments with highdimensional state spaces. To address these issues, we propose BehavIoral metric-based Latent Exploration (BILE). The core idea is to learn a compact representation within the behavioral metric space that preserves value differences between states. By introducing additional rewards to encourage exploration in this latent space, BILE drives the agent to visit states with higher value diversity and exhibit more behaviorally distinct actions, leading to more effective exploration of the state space. Additionally, we present a novel behavioral metric for efficient and robust training of the state encoder, backed by theoretical guarantees. Extensive experiments on high-dimensional environments, including realistic indoor scenarios in Habitat, robotic tasks in Robosuite, and challenging discrete Minigrid benchmarks, demonstrate the superiority and scalability of our method over other approaches.background gap对状态空间的有效探索对于深度强化学习 RL 的成功至关重要。虽然许多方法利用探索奖励来鼓励探索而不是仅仅依赖外在奖励但这些基于奖励的方法往往面临学习效率和可扩展性的挑战尤其是在具有高维状态空间的环境中。method为了解决这些问题我们提出了基于 behavioral metric 的 latent 探索BILE。核心思想是在行为度量空间内学习一个紧凑的 representation以保留状态之间的值差异。通过引入额外的奖励来鼓励在这个 latent space 中探索BILE 驱使智能体访问具有更高价值多样性的状态并表现出更多行为上不同的行为从而更有效地探索状态空间。此外我们还提出了一种新的行为指标用于高效、稳健地训练状态编码器并得到理论保证的支持。exp对高维环境的广泛实验包括 Habitat 中的真实室内场景、Robosuite 中的机器人任务以及具有挑战性的离散 Minigrid 基准测试证明了我们的方法相对于其他方法的优越性和可扩展性。零、介绍-Bisimulation metric-Bisimulation 度量是一种衡量两个状态和行为相似度的数学工具。它的 motivation 是如果两个状态在行为上是等价的那么它们应该具有相同的价值Value。定义这个度量值是通过一个递归定义或者说是一个不动点方程来确定的它包含两个核心部分奖励差异项分布差异项奖励差异项衡量两个状态和在执行当前策略后所获得的即时奖励的差异。如果奖励差异很大则说明这两个状态的行为后果不同。分布差异项衡量从和出发执行策略后下一个状态的分布和有多大的不同。这里使用1-Wasserstein 距离来量化这种分布差异并用折扣因子进行加权。理论保证-Bisimulation 度量具有非常重要的理论保证。核心保证在于状态之间的-Bisimulation 距离上界了它们的状态价值函数的差异。这意味着常数。如果两个状态在-Bisimulation 度量空间中距离很近那么它们的长期 value也一定很接近。反之如果距离很远则表明它们在行为后果、未来价值上有显著差异。一、背景与挑战高维稀疏环境下的探索困境对于深度强化学习Deep RL而言如何在状态空间巨大、奖励信号稀疏的环境中进行高效探索始终是一个核心挑战。传统的基于奖励Bonus-based的探索方法如 RND 或 ICM在高维状态空间如图像输入中存在两大挑战可扩展性限制 高维 state space 里的状态差异过小导致奖励信号不稳定难以有效区分状态的新颖性。表示崩溃Representation Collapse 特别是基于-Bisimulation 的度量方法在稀疏奖励绝大多数状态回报为零环境下状态编码器倾向于将所有状态映射到相近的点失去区分度BILE 论文中的 Theorem 1 阐述了这一问题。无意义探索 智能体可能为了最大化内在奖励而采取重复行为偏离外部任务目标如 Figure 1 所示。BILE 旨在通过学习一个鲁棒的、行为驱动的潜藏空间并结合隐向量条件化策略Latent-Conditioned Policy, LCP来解决这些问题从而实现高效且具有目的性的探索。二、核心机制隐向量的作用与采样BILE 的核心思想与技能发现Skill Discovery领域高度相似即利用一个随机采样的隐向量来条件化策略以生成多样化的行为。skill discovery 领域 sota 方法 metra 的 本站博客解读。的采样方式与作用采样方式 潜藏向量在每个回合Episode开始时从一个预定义的分布中随机采样一次并在整个回合中保持不变。论文实验表明BILE 对的具体分布如均匀分布、正态分布等具有鲁棒性。条件化策略 策略被定义为。不同的向量代表了智能体应追求的不同“意图”或“行为模式”。例如在导航任务中改变可以使智能体探索房间的不同区域如 Figure 3 所示。内在奖励因子化用于构建内在探索奖励其中是状态到在 BILE 潜藏空间中的距离度量。策略的目标是最大化这个 intrinsic reward。由于是随机且多样化的这迫使策略学习如何在潜藏空间中沿着所有可能的方向实现最大的“移动”从而确保了行为的多样性跟 metra 非常像。三、BILE 的关键技术创新鲁棒的行为度量学习BILE 的核心优势在于其构建潜藏空间所依赖的行为度量Behavioral Metric它解决了稀疏奖励下的表示崩溃问题。3.1 度量的目标价值多样性BILE 的潜藏空间旨在学习一个基于-Bisimulation 的度量。根据 Theorem 3这个距离度量是状态之间的价值差异的上界Upper-bound这意味着在 BILE 潜藏空间中距离较远的状态其未来期望回报价值必然存在显著差异。因此BILE 鼓励智能体探索具有高价值多样性的状态。有点抽象还没完全想清楚为什么探索 value 沿某一方向变化大的 state就可以鼓励探索3.2 鲁棒性机制引入预测误差为了避免在稀疏奖励环境中出现表示崩溃即所有状态的 value 差异趋近于零BILE 在其度量学习目标Equation 4/7中引入了动态模型预测误差作为额外的奖励信号通过将状态转移模型的预测误差整合到编码器训练中即使外部奖励为零编码器仍然有足够的信息来区分状态。这确保了潜藏表示的鲁棒性使其能够有效应用于高维、稀疏奖励场景。四、BILE 与 METRA / ETD 的对比分析metra 是目前无监督 RL 中 skill discovery 领域的 sota 方法ICLR 2024 oral。论文标题METRA: Scalable Unsupervised RL with Metric-Aware Abstraction。metra 本站博客。ETD 是 ICLR 2025 的文章做的 setting 跟 BILE 一样也关注无监督 RL 的 exploration。论文标题Episodic Novelty Through Temporal Distance。ETD 本站博客。BILE 的机制与 METRA (Metric-Aware Abstraction) 和 ETD (Episodic Temporal Distance) 具有高度相似性尤其是在利用潜藏空间距离和进行探索激励方面。它们的核心区别在于隐空间度量的基础定义和所关注的探索特性。特征 BILE METRA ETD度量基础-Bisimulation 行为度量 时间距离 (Temporal Distance, TD) 时间距离 (Temporal Distance, TD)度量目标 价值多样性上界状态价值差异。 时序结构保持状态间的时序可达性。 时序结构直接奖励时序距离。探索激励 沿着方向最大化价值差异驱动的移动。 沿着方向最大化时序可达性驱动的移动。 直接奖励访问时间距离大的状态。稀疏奖励鲁棒性 高通过引入动态模型预测误差明确避免了表示崩溃。 中到高TD 度量本身对奖励依赖性较低。 高直接基于可达性与奖励无关。关键差异总结度量属性不同BILE 关注的是行为等价性和价值差异。它学习的潜藏空间是价值驱动的确保探索是朝着最大化未来回报差异的方向进行的。METRA/ETD 关注的是时序可达性。它们学习的潜藏空间反映了状态在时间轴上的邻近性或可达性。鲁棒性机制不同BILE 明确针对基于 Bisimulation 的度量在稀疏奖励下易发生的表示崩溃问题通过引入预测误差项进行修正这是其区别于 LIBERTY 等早期 Bisimulation 方法的关键创新。探索目的性BILE 的探索信号基于价值差异与最终任务目标最大化期望回报具有更强的关联性这使得 BILE 的探索更具“目的性”Goal-directed而非仅仅是最大化状态空间中的覆盖或时序差异。综上所述BILE 成功地将 LCP 带来的行为多样性优势与一个经过理论保证且对稀疏奖励鲁棒的价值驱动的行为度量相结合实现了在高维、稀疏奖励环境下的高效探索。908 Imagination-Limited Q-Learning for Offline Reinforcement Learning - 用于 offline RL 的想象力限制的 Q-LearningOffline reinforcement learning seeks to derive improved policies entirely from historical data but often struggles with over-optimistic value estimates for out-of-distribution (OOD) actions. This issue is typically mitigated via policy constraint or conservative value regularization methods. However, these approaches may impose overly constraints or biased value estimates, potentially limiting performance improvements. To balance exploitation and restriction, we propose an Imagination-Limited Q-learning (ILQ) method, which aims to maintain the optimism that OOD actions deserve within appropriate limits. Specifically, we utilize the dynamics model to imagine OOD action-values, and then clip the imagined values with the maximum behavior values. Such design maintains reasonable evaluation of OOD actions to the furthest extent, while avoiding its over-optimism. Theoretically, we prove the convergence of the proposed ILQ under tabular Markov decision processes. Particularly, we demonstrate that the error bound between estimated values and optimality values of OOD state-actions possesses the same magnitude as that of in-distribution ones, thereby indicating that the bias in value estimates is effectively mitigated. Empirically, our method achieves state-of-the-art performance on a wide range of tasks in the D4RL benchmark.background gap离线强化学习试图完全从历史数据中得出改进的策略但经常难以应对分布外 OOD作的过于乐观的价值估计。此问题通常可以通过策略约束或保守的值正则化方法来缓解。然而这些方法可能会施加过度的限制或有偏见的价值估计从而可能限制性能改进。method为了平衡剥削和限制我们提出了一种想象力有限的 Q 学习 ILQ 方法旨在在适当的范围内保持 OOD 行动应得的乐观情绪。具体来说我们利用动力学模型来想象 OOD 动作值然后用最大行为值maximum behavior values裁剪想象值。这样的设计在最大程度上保持了对 OOD 动作的合理评估同时避免了其过度乐观。理论从理论上讲我们证明了所提出的 ILQ 在表格马尔可夫决策过程中的收敛性。特别是我们证明了 OOD 状态动作的估计值和最优值之间的误差范围与分布内状态动作的误差范围相同从而表明价值估计的偏差得到了有效缓解。exp根据经验我们的方法在 D4RL 基准测试中的各种任务上实现了最先进的性能。一、引言offline RL 的挑战与现有困境离线强化学习 (Offline RL) 的核心挑战在于分布偏移 (Distributional Shift)。由于完全依赖于一个固定的数据集当 agent 尝试执行数据集中未出现过的 OOD 动作 (Out-of-Distribution) 时Q 函数往往会给出过度乐观 (Over-Optimistic) 的价值估计导致策略崩溃。现有的解决方案陷入了一个二元困境策略约束 (Policy Constraint) 强制新策略贴近行为策略(如 BCQ)。缺陷 过度保守。如果原始数据质量不高策略性能将受限于数据无法实现超越。价值正则化 (Value Regularization) 通过惩罚 OOD 动作的 Q 值来抑制乐观估计 (如 CQL)。缺陷 不可控的悲观偏差。为了安全它将所有 OOD 动作的价值都压低了。例如在 MuJoCo 任务中CQL 的 Q 值估计显著低于数据集中的最大回报论文图 1(c)限制了策略改进的空间。二、ILQ 的叙事核心寻找“合理的乐观”想象力受限 Q-Learning (ILQ) 的核心动机是打破上述困境。它的“故事”在于我们不应盲目地惩罚 OOD 动作的价值而应该在“合理的乐观”和“必要的限制”之间找到平衡点。ILQ 的核心洞察是想象 (Imagination) 首先为 OOD 动作提供一个合理的价值 baseline即“如果这个 OOD 动作是可信的它的价值应该是什么”限制 (Limitation) 然后设定一个安全上限确保这个想象值不会超过数据集中已知最好的动作的价值。通过这种方式ILQ 旨在最大限度地保持 OOD 动作应有的乐观性同时避免过度乐观导致的风险。三、核心方法想象力受限 Bellman 算子 (ILB)ILQ 将上述直觉转化为数学操作提出了 想象力受限 Bellman (ILB) 算子。对于一个状态和动作其中OOD 动作的价值估计由两个关键组件构成3.1 想象值 ()提供合理的乐观基准的目标是为 OOD 动作估计一个接近真实的 Q 值。技术细节 ILQ 首先预训练一个 env dynamic model用于预测 OOD 动作的即时奖励和下一状态。计算方式 使用动态模型进行单步 Bellman backup合理性 这为 OOD 动作提供了一个“有依据的”乐观估计解决了传统价值正则化方法如 CQL对 OOD 动作的盲目悲观问题。3.2 限制值 ()确保保守性与安全性的目标是设定一个安全的上限防止 env dynamic model 的误差 导致过度乐观。技术细节被定义为在当前状态下行为策略的 support set 内最大的 Q 值。实现机制 为了准确识别行为策略的复杂支持集ILQ 采用了强大的条件扩散模型 (Conditional Diffusion Model) 来建模即去确定哪些 action 是数据集中实际出现过的。为什么使用 diffusion 在连续动作空间如 MuJoCo 机器人任务中行为策略的分布可能非常复杂甚至是多模态的即在某个状态下数据集中可能存在多组不同的、有效的动作。使用简单的模型如高斯分布无法捕捉这种多模态性而 diffusion 可以。与此相关的文章DAIL: Beyond Task Ambiguity for Language-Conditioned Reinforcement Learning合理性 限制值保证了OOD 动作的 value 永远不会超过 in-distribution 动作中的最大 value。这提供了必要的保守性防止了模型误差带来的灾难性后果。四、ILQ 与 Model-Based RL的关系Model-Assisted 的 Model-Free RL虽然 ILQ 使用了 env dynamics model来计算但它本质上仍然是一个 Model-Free (无模型) 的 Q-Learning 框架可以称之为 “Model-Assisted Model-Free” 方法。特性 传统 Model-Based RL ILQ 的处理方式模型用途 用于多步规划或生成长轨迹数据。 仅用于计算 OOD 动作的单步 Bellman backup 目标。误差风险 误差积累多步预测导致误差呈指数级增长。 规避误差积累只进行单步预测并立即使用 Q 函数进行 bootstrap限制了误差传播。核心机制 依赖模型预测来驱动策略。 依赖 Model-Free 的 Q 函数学习模型仅作为 OOD 动作价值的辅助估计工具。因此ILQ 借鉴了 Model-Based 的“想象”能力但通过 Model-Free 的 Q 函数 bootstrap 和的保守限制机制确保了其在离线 RL 设定下的稳定性和可靠性。五、结论与理论保障ILQ 的理论分析表明通过 ILB 算子学习到的 OOD 动作的价值估计误差界限与 In-Sample 动作的误差界限处于相同的数量级。这一关键的理论结果证明了 ILQ 成功缓解了 OOD action 的偏差使其价值估计的可靠性达到了 in-distribution action 相当的水平。实验结果也证实ILQ 在 D4RL 基准测试的广泛任务上实现了最先进的性能。2430 Self-Consistent Model-based Adaptation for Visual Reinforcement Learning - 为视觉 RL 而设计的自我一致的 model-based 的自适应Visual reinforcement learning agents typically face serious performance declines in real-world applications caused by visual distractions. Existing methods rely on fine-tuning the policy’s representations with hand-crafted augmentations. In this work, we propose Self-Consistent Model-based Adaptation (SCMA), a novel method that fosters robust adaptation without modifying the policy. By transferring cluttered observations to clean ones with a denoising model, SCMA can mitigate distractions for various policies as a plug-and-play enhancement. To optimize the denoising model in an unsupervised manner, we derive an unsupervised distribution matching objective with a theoretical analysis of its optimality. We further present a practical algorithm to optimize the objective by estimating the distribution of clean observations with a pre-trained world model. Extensive experiments on multiple visual generalization benchmarks and real robot data demonstrate that SCMA effectively boosts performance across various distractions and exhibits better sample efficiency.background gap视觉强化学习代理在实际应用中通常会因视觉干扰而面临严重的性能下降。现有方法依赖于通过手工制作的增强来微调策略的表示。method在这项工作中我们提出了基于自洽模型的自适应SCMA这是一种在不修改策略的情况下促进鲁棒自适应的新方法。通过使用去噪模型denoising model将杂乱的观察结果转移transfer到干净的观察结果上SCMA 可以作为各种 policy 的即插即用的增强功能以减轻视觉上的干扰。为了以无监督的方式优化去噪模型我们推导了一个无监督分布匹配目标并对其最优性进行了理论分析。我们进一步提出了一种实用的算法通过使用预训练的世界模型估计清洁观测值的分布来优化目标。exp在多个视觉泛化基准和真实机器人数据上的广泛实验表明SCMA 可以有效地提高各种干扰的性能并表现出更好的样本效率。一、引言VRL 泛化的核心痛点视觉强化学习Visual RL智能体在模拟环境中训完后部署到真实世界其性能往往会因视觉干扰如动态背景、遮挡、光照变化而急剧下降。传统的解决方案主要有两种数据增强 (RAD / DrAC) 通过在训练时人为添加噪声来让 policy 变得更 robust无法应对训练时未见过的干扰。适应性微调 (R-DM) 在部署时微调 policy 的视觉编码器部分这种方法样本效率低并且是策略相关不是 policy-agnostic的每个策略都需要单独微调。本文提出的 SCMA (Self-Consistent Model-based Adaptation) 方法可以解决这一核心痛点缺乏一种通用、高效、policy-agnostic 的 visual policy 部署的适应机制。二、故事核心denoise 输入而非重新训练策略SCMA 的核心直觉是如果策略Policy已经在干净环境中学会了任务那么它就是专家。性能下降不是因为策略忘了如何执行任务而是因为输入图像太脏策略无法识别关键信息。因此SCMA 提出不修改已训练好的策略而是通过一个“去噪模型”将受干扰的图像输入恢复成策略熟悉的干净图像。这个 denoise model 并非 diffusion三、preliminaries 与实验 setting 介绍SCMA 是一种基于模型的强化学习 (MBRL) 方法它建立在以下前提之上模块 技术实现 状态 职责策略DreamerV2 冻结 负责决策。世界模型DreamerV2 冻结 负责提供干净环境的动态模型和表示。去噪模型CNN 编码器-解码器 训练中 负责将干扰观测转换为干净观测。任务与环境连续控制 DeepMind Control Suite (DMC)包含 video hard 动态视频背景、moving view 摄像头易懂、color hard 随机颜色变化、occlusion 随机遮挡 等多种干扰。桌面操作 RL-ViGen 任务。真实世界验证 Mobile ALOHA 机械臂抓取任务。评价指标