论文阅读“EFFICIENT VISION-LANGUAGE-ACTION MODELS FOR EMBODIED MANIPULATION: A SYSTEMATIC SURVEY“

📅 发布时间：2026/7/6 2:54:15 👁️ 浏览次数：

目录论文核心概述一、研究背景与动机1.1 VLA模型的效率危机1.2 VLA vs VLM的效率差异二、四大技术维度深度解析2.1 高效模型架构第3章**静态骨干网络选择****动态计算路径****双系统设计**认知科学启发2.2 高效感知特征第4章**选择性特征处理****时序共享与重用**2.3 高效动作生成第5章**原始动作生成****推理感知动作生成**2.4 高效训练与推理第6章**训练效率技术****推理效率技术**三、未来展望第7章3.1 模型与数据协同优化3.2 高效时空感知3.3 紧凑连续控制3.4 高效强化学习适应3.5 效率中心评估框架四、论文贡献与价值4.1 主要贡献4.2 技术价值4.3 局限与不足五、关键图表解读六、与相关综述的对比七、实践建议摘要Vision-Language-Action (VLA) models extend vision-language models to embodied control by mapping natural-language instructions and visual observations to robot actions. Despite their capabilities, VLA systems face significant challenges due to their massive computational and memory demands, which conflict with the constraints of edge platforms such as on-board mobile manipulators that require real-time performance.Addressing this tension has become a central focus of recent research. In light of the growing efforts toward more efficient and scalable VLA systems, this survey provides a systematic review of approaches for improving VLA efficiency, with an emphasis on reducing latency, memory footprint, and training and inference costs.We categorize existing solutions into four dimensions: model architecture, perception feature, action generation, and training/inference strategies, summarizing representative techniques within each category.Finally, we discuss future trends and open challenges, highlighting directions for advancing efficient embodied intelligence. The papers covered in this survey are compiled in a GitHub repository: Awesome Efficient VLA.结论This survey reviews research on efficiency optimization in VLA models. We examine the progression from foundational model architectures, through perceptual representations, to high-level action generation, encompassing both training and inference.Building on this structure, we highlight several emerging directions that extend efficiency-focused research: the co-evolution of models and data, spatio-temporal perception to build dynamic world models, deliberative reasoning for intelligent action generation, learning paradigms that balance imitation and reinforcement strategies, and unified evaluation frameworks for reproducible assessment.Together, these directions show how efficiency improvements can enhance VLA systems as a whole. We hope this survey serves as a practical reference and supports the development of VLA systems that are both efficient and capable of general, reliable embodied intelligence.论文核心概述《Efficient Vision-Language-Action Models for Embodied Manipulation: A Systematic Survey》是首个专门针对高效VLA模型的系统性综述由中科院自动化所等机构的研究人员撰写。论文聚焦于解决VLA模型在边缘设备部署时面临的计算效率瓶颈从四个维度构建了完整的效率优化技术体系。一、研究背景与动机1.1 VLA模型的效率危机当前VLA模型面临严峻的大模型困境RT-255B参数推理速度仅3HzOpenVLA7B参数5Hz运行频率π03B参数约10Hz这些速度数据还是在高端GPU上测得的在边缘设备上性能更差。这与机器人控制对**实时性通常需要50-100Hz**的严格要求形成尖锐矛盾。1.2 VLA vs VLM的效率差异论文指出直接将VLM的压缩技术迁移到VLA存在独特挑战维度VLMVLA输出特性离散文本token连续动作序列时序要求单帧处理多帧时序一致性物理约束无必须满足物理可行性实时性相对宽松严格硬实时要求二、四大技术维度深度解析2.1 高效模型架构第3章静态骨干网络选择RoboMamba用Mamba状态空间模型替代Transformer2.7B参数实现更高效时序建模TinyVLA采用Pythia-1.3B轻量语言模型实现边缘部署SmolVLA使用SmolVLM-20.24B-2.25B参数裁剪最后几层Transformer动态计算路径这是论文重点介绍的创新方向DEER-VLA早期退出机制在LLM中间层放置轻量级策略头通过输出相似度度量决定何时提前退出优化目标平衡FLOPs、峰值计算和内存使用MoLE-VLA混合专家层路由将每层视为潜在专家门控机制动态选择参与计算的层自蒸馏稳定训练避免深层信息完全丢失EfficientVLA基于余弦相似度的层跳过若层输入输出特征相似度超阈值则跳过自适应输入特性保留完整表征深度潜力双系统设计认知科学启发受Kahneman快思慢想理论启发将系统分为System 2慢系统大模型负责高层推理规划System 1快系统轻量模型执行快速感知动作代表性工作方法快系统慢系统通信方式LCB3D Diffuser ActorLLaVA特殊tokenRoboDualDiTOpenVLA潜在向量HyperVLATransformer基础策略T5超网络网络参数关键创新HyperVLA 用超网络动态生成任务特定策略参数实现参数级知识传递。2.2 高效感知特征第4章选择性特征处理视觉token通常占输入序列80%以上是主要计算瓶颈。FastV注意力评分剪枝计算中间层视觉token平均接收注意力Top-K保留重要tokenLightVLA可微分token选择跨模态注意力生成动态查询Gumbel-Softmax实现端到端训练自动确定保留token数量无需预定义ADP动作感知动态调整任务驱动静态剪枝基于文本查询动作感知动态开关基于末端执行器运动滞后机制平衡粗运动时的压缩与精操作时的保真SQAP-VLA量化感知剪枝保护量化下的任务关键token保护机器人末端执行器附近token空间采样维持覆盖度时序共享与重用利用帧间冗余减少计算VLA-CacheKV-Cache复用估计patch级相似度静态patch复用KV缓存注意力熵动态调整复用比例TTF-VLAtoken融合维护历史patch token历史二值重要性掩码识别显著变化区域像素差异注意力相关性双指标Fast ECoT推理缓存高层规划变化缓慢跨步骤复用结合连续批处理加速2.3 高效动作生成第5章原始动作生成Action Chunking动作分块单次推理生成连续动作块时间集成平滑/平均减少方差问题块边界不连续RTC实时分块将分块生成重构为序列修复问题冻结已执行前缀软掩码重叠区域基于流匹配的平滑过渡FAST动作token压缩离散余弦变换DCT转频域保留主导低频系数Byte-Pair编码进一步压缩OmniSAT统一动作tokenizerB-spline时序对齐残差向量量化RVQ离散化按维度分组位置/旋转/夹爪推理感知动作生成引入显式推理阶段提升泛化性但增加延迟ECoT嵌入式思维链将指令分解为结构化字段TASK/PLAN/SUBTASK/MOVE/GRIPPER/OBJECTS序列长度从7 token增至350 token延迟显著增加ECoT-Lite推理dropout训练时联合预测推理和动作测试时省略推理token仅输出动作显著加速性能损失小DreamVLA动态区域预测光流检测与末端执行器或物体运动相关的图像区域仅预测动态区域大幅减少计算2.4 高效训练与推理第6章训练效率技术参数高效微调PEFTLoRA冻结原权重插入低秩矩阵可训练参数减少数个数量级知识蒸馏CEED-VLA一致性蒸馏稳定非自回归推理VITA-VLA跨模型动作对齐将小型动作模型专家知识迁移到大型VLA量化感知训练SQIL状态重要性评分SIS指导量化BitVLA1-bit量化内存从15.1GB降至1.4GB推理效率技术解码范式演进自回归AR顺序生成简单但慢扩散解码多步去噪质量高但迭代慢非自回归NAR并行生成需特殊训练推测解码小模型起草大模型验证OpenVLA-OFT因果注意力→双向注意力单次并行预测整个动作序列离散token→连续回归L1损失Spec-VLA推测解码适配轻量草稿模型并行生成候选序列主模型单次验证放宽验证标准接受行为有效但非完全一致的草稿PD-VLAJacobi迭代并行解码受Jacobi迭代启发并行预测所有动作多轮迭代直至收敛训练-推理差距问题CEED-VLA一致性模型早退教师模型Jacobi解码轨迹作为监督辅助AR损失保持分布对齐早退机制更新低于阈值时停止迭代三、未来展望第7章论文提出五个关键发展方向3.1 模型与数据协同优化问题数据金字塔互联网/仿真/真实中冗余数据导致计算浪费方向数据边际效用量化框架课程学习动态采样联合缩放律考虑数据质量与多样性3.2 高效时空感知问题从2D帧到3D表示的token爆炸方向任务感知3D摘要仅编码交互相关区域短期密集跟踪长期稀疏摘要关键帧语义引导过滤可学习token剪枝3.3 紧凑连续控制问题高频连续控制需要大量输出token方向多级动作抽象低层原语高层意图跨块时序一致性缓存隐藏状态反应式推理轻量级按需规划3.4 高效强化学习适应问题模仿学习存在能力天花板RL样本效率低方向渐进训练管道IL初始化→离线RL微调→安全约束在线适应模型-based rollout跨模态经验回放自适应奖励塑形3.5 效率中心评估框架三维评估体系资源效率模型大小、延迟、内存、能耗性能鲁棒性长程稳定性、分布外泛化可解释性人类可理解的决策依据、可视化归因四、论文贡献与价值4.1 主要贡献首个系统性综述填补VLA效率优化领域综述空白四维分类体系架构-感知-动作-训练推理覆盖完整技术栈前沿趋势洞察提出模型数据协同、3D感知、连续控制等未来方向开源资源汇总维护GitHub仓库跟踪最新进展4.2 技术价值实践指导为边缘部署提供技术选型参考研究地图明确各技术路线的优势与局限问题定义将效率从单一指标扩展为多维权衡体系4.3 局限与不足论文自身指出当前方法多从VLM迁移缺乏机器人特异性优化评估标准碎片化难以横向比较部分方法如动态剪枝引入额外训练开销五、关键图表解读图1论文结构清晰展示四维分类体系高效架构静态选择、动态路径、双系统高效感知选择性处理、时序重用高效动作生成原始动作、推理感知动作高效流程训练技术、推理技术图3发展轨迹时间线展示2025年爆发式增长紫色高效架构RoboMamba→TinyVLA→SmolVLA→NORA等绿色高效感知VLA-CACHE→OTTER→UniVLA等蓝色高效生成FAST→PD-VLA→RTC等图4双系统框架System 2MMLM低频处理生成推理token和潜在向量System 1动作模型高频执行结合潜在向量与实时感知异步运行N步推理支持多步动作执行六、与相关综述的对比综述焦点与本文关系Ma et al., 2024VLA概念、架构、应用广泛概述本文聚焦效率子集更深入Zhong et al., 2025动作token化视角本文覆盖更广含架构和感知Jiang et al., 2025自动驾驶VLA本文针对通用操作更广泛七、实践建议基于论文分析针对不同应用场景的建议边缘设备部署1B参数架构SmolVLA、NORA、TinyVLA感知FastV token剪枝 VLA-Cache时序复用动作FAST压缩小chunk size云端高性能场景架构MoLE-VLA动态层路由感知LightVLA可微分剪枝动作RTC平滑分块 ECoT-Lite推理加速研究探索方向双系统架构的异步调度优化3D感知的高效token化强化学习与VLA的高效结合这篇综述为VLA领域的效率优化研究提供了全面的技术地图和明确的发展方向对于推动VLA模型从实验室走向实际机器人应用具有重要意义。

相关新闻

最新新闻

日新闻

周新闻

月新闻