具身智能学术之星 |北大王鹤老师团队2025年工作盘点

📅 发布时间:2026/7/5 7:50:20 👁️ 浏览次数:
具身智能学术之星 |北大王鹤老师团队2025年工作盘点
在具身智能快速发展的浪潮中中国科研人员正发挥着日益关键的作用。国内各大高校与实验室各有所长、各具特色——有的专注于感知技术有的深耕端到端方案也有的聚焦仿真平台与环境构建。近期不少计划申请硕博的同学向「具身智能之心」咨询希望我们系统梳理国内具身智能领域的顶尖实验室并介绍其核心研究方向。为帮助大家更清晰地把握国内具身智能的学术格局具身智能之心特别推出『学界之星』系列专题带你走近那些默默推动行业进步的高校学者。无论你正在规划职业、确定研究方向还是准备申请硕博深造希望这些内容能为你提供有价值的参考。今天要介绍的是银河通用创始人、北京大学前沿计算研究中心CFCS助理教授、博士生导师——王鹤。原文链接具身智能学术之星 北大王鹤老师团队2025年工作盘点求学与任教经历中王鹤老师拥有顶尖学术积淀2014年获清华大学学士学位2021年于斯坦福大学获博士学位师从美国三院院士Leonidas. J Guibas教授毕业后加入北京大学投身具身智能领域科研与教学培养新一代人工智能人才。王鹤老师创立并领衔北大具身感知与交互实验室EPIC Lab以发展具身技能与具身多模态大模型为核心方向全力推进通用具身智能研究落地。同时他身兼北大-银河通用具身智能联合实验室主任、北京智源人工智能研究院具身智能研究中心主任搭建产学研协同创新平台助力领域高质量发展。学术研究上王鹤老师成果丰硕已在计算机视觉、机器人学与人工智能领域顶级会议及期刊发表50余篇高质量论文涵盖CVPR、ICCV、ECCV、TRO、RAL、ICRA、NeurIPS、ICLR、AAAI等国际权威平台。其研究成果屡获国际认可先后斩获ICCV 2023最佳论文候选、ICRA 2023最佳操纵论文候选、2022世界人工智能大会青年优秀论文WAICYOP奖、Eurographics 2019最佳论文提名奖等多项重磅荣誉。并且王鹤老师曾受邀担任CVPR 2022、WACV 2022领域主席《Image and Vision Computing》副主编同时长期担任众多顶会审稿人及程序委员会委员为人工智能领域学术发展贡献力量。如果你对“VLA、灵巧手操作、具身导航、仿真预训练”感兴趣王鹤老师的工作或许正是一个值得追踪的窗口。更多研究细节也欢迎大家访问他的主页https://scholar.google.com/citations?hlzh-CNuserroCAWkoAAAAJ本文将着重介绍王鹤老师在2025年至今的一些已发表至顶会的研究成果。[ICRA 2025] BODex: Scalable and Efficient Robotic Dexterous Grasp Synthesis Using Bilevel Optimization提出机构北京大学、Galbot、北京智源人工智能研究院论文链接https://arxiv.org/abs/2412.16490项目主页https://pku-epic.github.io/BODex研究背景机器人灵巧抓取是环境交互的基础数据驱动方法需要大规模高质量数据集但现有基于梯度优化的抓取合成方法存在效率低、抓取质量能量函数有强假设、实验对象集有限的问题同时缺乏标准化的基准测试平台导致不同方法难以对比。论文内容提出BODex框架将灵巧抓取合成构建为双层优化问题结合下层二次规划QP和上层梯度下降过程实现高效的抓取合成。利用CUDA加速的机器人库cuRobo和基于GPU的QP求解器ReLU-QP实现数千个抓取的并行计算提出粗到精的接触建模策略解决球体近似导致的接触不精确问题还实现了ReLU-QP的批量版本以提升求解速度建立基于MuJoCo的灵巧抓取基准测试平台对比不同合成方法、能量函数和学习方法的性能生成了大规模高质量的灵巧抓取数据集训练的学习模型在仿真和真实世界中均取得了优异的抓取效果。主要创新点将机器人灵巧抓取合成形式化为双层优化问题下层QP求解无假设的最优接触力组合上层梯度下降优化手部姿态摆脱了传统抓取能量函数的强假设限制。提出基于GPU的高效抓取合成系统结合cuRobo和批量版ReLU-QP实现抓取的大规模并行计算单张3090 GPU每秒可合成超49个抓取相比基线实现50倍速度提升。设计粗到精的接触建模策略先通过球体近似快速查询再利用GJK算法实现精确的接触建模平衡了合成速度和接触精度。建立了基于MuJoCo的可复现灵巧抓取基准测试平台为不同抓取合成方法、能量函数和学习模型的对比提供了标准化环境。生成了大规模高质量的BODex数据集包含漂浮状态和桌面场景的抓取数据还合成了预抓取姿态和无碰撞的手-臂轨迹提升了数据集的实用性。在仿真中BODex合成的抓取对Shadow、Allegro、Leap手的成功率均超75%穿透深度低于1mm在成功率、合成速度、穿透深度等指标上显著优于DexGraspNet、SpringGrasp等基线相比DexGraspNet数据集基于BODex数据集训练的学习模型仿真成功率从约40%提升至80%在真实世界中基于BODex训练的模型在Shadow手上对20种不同物体的抓取成功率达到81%消融实验验证了粗到精策略和预抓取姿态设计对提升抓取质量的关键性。[CVPR 2025] Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection提出机构北京航空航天大学、北京大学、北京智源人工智能研究院、Galbot论文链接https://arxiv.org/abs/2412.04455项目主页https://zhoues.github.io/Code-as-Monitor研究背景机器人在复杂环境执行长程任务时故障不可避免现有方法难以同时实现开集场景下的反应式故障检测故障发生后识别和主动式故障检测预见并预防可预期故障基于大语言模型和视觉语言模型的方法存在执行速度低、检测精度粗、3D时空感知能力不足的问题且主动式故障检测相关研究较少。论文内容本文提出Code-as-MonitorCaM框架将反应式和主动式故障检测统一为时空约束满足问题利用视觉语言模型生成代码实现实时故障监测。引入约束元素将相关实体/部件抽象为紧凑几何元素提升监测的精度和效率设计约束生成器、约束绘制器、约束监测器三大核心模块完成子目标与约束生成、约束元素提取、监测代码生成与实时故障检测的全流程还训练了约束感知分割模型ConSeg实现约束元素的精准提取。该框架可与开环控制策略结合形成闭环系统在模拟器和真实场景中验证了有效性。主要创新点提出Code-as-Monitor新型范式通过约束感知视觉编程结合视觉语言模型首次在单一框架中实现开集场景下的反应式和主动式机器人故障检测。引入约束元素概念将约束相关实体/部件抽象为点、线等紧凑几何元素剔除无关视觉细节简化约束监测并提升检测的精度与效率。设计多粒度约束感知分割模型ConSeg实现约束相关实体的实例级和部件级精准分割为约束元素提取提供支撑且具备一定的开集适配能力。提出基于视觉语言模型生成监测代码的方式仅需在子目标开始时生成一次代码结合约束元素跟踪即可实现实时监测大幅降低计算成本。在CLIPort、Omnigibson、RLBench三个模拟器和真实世界场景中相比基线方法CaM在严重干扰下任务成功率提升28.7%执行时间减少31.8%ConSeg在约束感知分割任务上的性能显著优于现有SOTA模型消融实验验证了多视图、约束感知分割、约束元素点连接等设计的关键性真实世界实验中CaM能与开环策略结合形成闭环系统有效处理动态杂乱场景中的长程任务。[CVPR 2025] MobileH2R: Learning Generalizable Human to Mobile Robot Handover Exclusively from Scalable and Diverse Synthetic Data提出机构清华大学、Galbot、北京大学、上海人工智能实验室、上海期智研究院论文链接https://arxiv.org/abs/2501.04595.pdf项目主页https://MobileH2R.github.io研究背景人机移动机器人交接H2MR需要机器人在大工作空间中可靠接收物体是人机协作的关键任务现有方法存在真实世界训练有安全风险且成本高、合成人体运动数据缺乏多样性和任务针对性、固定基交接方法无法适配移动机器人、演示数据生成难以兼顾安全性和模仿友好性等问题。论文内容本文提出MobileH2R框架仅利用可扩展的多样化合成数据实现通用的视觉基人机移动机器人交接技能学习。设计MobileH2R-Sim仿真环境通过两阶段流水线生成多样化的全身体感交接运动数据提出自动演示生成方法通过未来避障、最终姿态约束保证交接安全性利用视觉神经损失增强视觉-动作关联生成安全且适合模仿的演示数据设计4D模仿学习方法融合人体和物体点云信息采用不同采样半径的集合抽象层处理尺度差异实现移动机器人底座和机械臂的协调动作学习。在模拟器和真实世界中完成了多组对比实验验证框架性能。主要创新点提出首个专为移动机器人人机交接设计的可扩展合成数据生成流水线实现多样化、任务针对性的全身体感人机交接运动数据生成无需真实世界演示数据。设计兼顾安全性和模仿友好性的自动演示生成方法通过未来避障和最终姿态约束避免人机碰撞利用视觉神经损失解决仿真视觉不可微问题增强视觉-动作的关联。提出4D模仿学习方法融合人体、手部和物体的点云流信息采用多尺度集合抽象层处理不同尺度点云的特征提取实现移动机器人底座和机械臂的协调动作端到端学习。首次在人机交接任务中实现了从纯合成数据到真实移动机器人的有效仿真到现实迁移且无需依赖人体运动捕捉数据。在模拟器的不同测试集m0、n0、s0中相比Grasp Selection Trajectory Planning、GenH2R等基线方法MobileH2R的交接成功率至少提升15%平均成功值更高且时间成本较低数据缩放实验验证了增加演示数量和资产多样性能显著提升策略性能消融实验证明了流信息、人体信息、协调动作设计的关键性真实世界实验中相比改进的GenH2RMobileH2R在简单和复杂场景下的交接成功率分别达到80%和63.3%大幅超越基线。[ICCV 2025] DexVLG: Dexterous Vision-Language-Grasp Model at Scale提出机构北京智源究院、Galbot、清华大学、北京大学等论文链接https://arxiv.org/pdf/2507.02747.pdf项目主页https://jiaweihe.com/dexvlg研究背景现有 VLA 系统多局限于简单夹持器末端执行器缺乏针对类人灵巧手的功能抓取研究灵巧抓取数据收集难度大现有数据集规模有限或缺乏语义感知无法支持大规模模型训练。论文内容构建大规模部分感知功能灵巧抓取数据集DexGraspNet3.0含1700万灵巧抓取姿态、17.4万个物体及对应的部分级语义描述基于该数据集训练DexVLG模型以单视图RGBD输入和语言指令为输入通过融合视觉-语言特征和流匹配去噪范式生成与语言对齐的灵巧抓取姿态并在仿真和真实世界中进行验证。主要创新点提出DexGraspNet3.0数据集规模庞大且含语义标注通过物理仿真验证抓取姿态有效性解决灵巧抓取数据稀缺问题。设计DexVLG模型端到端训练融合多基础模型特征采用流匹配去噪机制可生成语言指令引导的多样化、高质量灵巧抓取姿态。构建专用基准在Isaac Gym中设计部分感知灵巧抓取基准提出新指标评估抓取的部分对齐精度。在仿真基准中零样本执行成功率超76%部分抓取精度达SOTA在真实世界实验中对简单物体的抓取成功率达80%部分对齐精度达75%展现出良好的泛化能力。[ICCV 2025] DyWA: Dynamics-adaptive World Action Model for Generalizable Non-prehensile Manipulation提出机构北京大学、Galbot等论文链接https://arxiv.org/pdf/2503.16806项目主页https://pku-epic.github.io/DyWA/研究背景非抓取操作在非结构化环境中处理难抓取物体至关重要但现有学习方法严重依赖多视图相机和精确姿态跟踪且难以泛化到物体质量、桌面摩擦等变化的物理条件。论文内容提出DyWA框架通过联合预测未来状态并基于历史轨迹适配动力学变化增强动作学习。设计动力学适配模块编码历史观测-动作对融合几何和物理知识将传统动作模型扩展为世界动作模型引入额外监督信号通过FiLM调节将动力学嵌入与世界模型桥接在仿真和真实世界中验证其在单视图输入下的非抓取操作性能。主要创新点动力学适配模块利用历史轨迹建模动态特性解决单视图部分观测和物理条件变化带来的泛化问题。世界动作模型联合预测动作和未来状态提供更多监督信号优化模仿学习损失。FiLM条件调节有效融合动力学嵌入与世界模型提升模型对动力学变化的适配能力。在仿真中仅用单视图点云观测成功率较基线提升31.5%真实世界实验中平均成功率达68%可泛化到多样物体几何形状适配桌面摩擦变化对非均匀质量分布和光滑物体也具有鲁棒性。当前文件内容过长豆包只阅读了前 88%。[NeurIPS 2025] SOFAR: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation提出机构清华大学、上海交通大学、Galbot、北京大学等论文链接https://arxiv.org/abs/2502.13143v2项目主页https://github.com/qizekun/SoFar研究背景当前视觉语言模型VLMs在物体定位关系的空间推理上取得进展但往往忽略物体朝向这一6-DoF精细操作的关键因素传统姿态表示依赖预定义框架或模板泛化性和语义接地能力有限难以将自然语言描述转化为所需的物体朝向。论文内容提出语义朝向Semantic Orientation概念以无参考框架的自然语言定义物体朝向构建大规模数据集OrienText300K开发PointSO模型用于零样本语义朝向预测并搭建SOFAR集成系统。SOFAR结合PointSO与SAM等基础模型通过RGB-D输入构建含6-DoF信息的场景图助力VLM进行链式思维空间推理生成机器人操作动作还推出Open6DOR V2和6-DoF SpatialBench两个新基准。主要创新点提出语义朝向表示将物体朝向与自然语言关联桥接几何推理与功能语义支持任务特定的朝向变化解读。构建OrienText300K数据集含350K3D模型及多样化语言-朝向标注对经GPT-4o过滤和标注保证数据质量。设计PointSO模型基于跨模态3D Transformer可直接输入物体点云和语言描述实现零样本语义朝向预测。开发SOFAR系统整合多模型构建6-DoF场景图支持位置和朝向联合规划无需任务特定微调即可泛化到多种执行器和任务。在Open6DOR上实现48.7%的零样本成功率在SIMPLER-Env上零样本成功率达74.9%在真实世界60项任务中表现优于基线方法且在导航、视觉问答等任务中展现出良好的泛化能力。[NeurIPS 2025] DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge提出机构上海交通大学、EIT、清华大学、Galbot、北京大学、UIUC、中国科学技术大学论文链接https://arxiv.org/abs/2507.04447v3项目主页https://github.com/Zhangwenyao1/DreamVLA研究背景现有VLA模型多直接从观测映射到动作缺乏人类式的闭环预测能力基于图像生成的预测方法存在信息冗余且缺乏动态、空间和语义等关键世界知识影响动作推理和泛化效果。论文内容提出DreamVLA框架将VLA模型重构为感知-预测-动作模型通过预测动态区域、深度图和高层语义特征等综合世界知识为动作规划提供前瞻线索。采用块结构注意力机制避免跨类型知识泄露结合扩散Transformer解码器实现连贯的多步动作推理在CALVIN基准和真实世界任务中进行验证。主要创新点综合世界知识预测聚焦与机器人执行相关的关键信息避免冗余像素级重建提供简洁且全面的前瞻线索。块结构注意力机制分离动态、深度、语义等子查询的相互注意力保证表示的纯净性和解纠缠性。扩散Transformer动作生成从共享 latent 特征中解耦动作表示建模动作的条件分布生成物理合理的动作序列。在CALVIN ABC-D基准上实现4.44的平均任务长度刷新SOTA在真实世界机器人任务中成功率达76.7%在LIBERO基准上各赛道表现优于或媲美现有方法。[ICLR 2026] Embodied Navigation Foundation Model提出机构北京大学、Galbot等论文链接https://arxiv.org/abs/2509.12129v2项目主页https://pku-epic.github.io/NavFoM-Web/研究背景现有的具身导航方法大多局限于狭窄的任务场景和特定的载体架构难以处理不同载体和任务间的跨场景适配问题。VLM 虽具有强泛化能力但在导航任务中未能充分整合多相机配置和时间跨度信息且实际部署中面临硬件内存和推理速度的约束。论文内容本文提出跨载体、跨任务的导航基础模型NavFoM通过800万导航样本训练涵盖四足机器人、无人机、轮式机器人和车辆等载体以及视觉-语言导航、目标搜索、目标跟踪和自动驾驶等任务。模型采用统一架构引入时间-视角指示符TVI令牌嵌入相机视角和时间信息结合预算感知时间采样BATS策略动态调整令牌采样在有限令牌长度下平衡性能与效率。同时通过端到端联合训练导航数据与图像/视频问答数据提升模型的泛化能力并在真实环境中验证了其在多种机器人平台上的实用性。主要创新点提出TVI令牌能够灵活处理任意相机配置和任务时间跨度支持不同相机设置的联合训练及与问答数据的协同优化。设计BATS策略基于遗忘曲线动态采样导航历史令牌在满足硬件内存约束的同时保留关键的近期和历史信息。构建大规模多样化数据集涵盖多载体、多任务的导航样本及开放世界问答数据实现跨载体、跨任务的统一导航建模。采用双分支架构兼顾导航轨迹预测与问答任务无需任务特定微调即可在多个基准测试中取得优异性能。在7个公开基准测试中NavFoM在不同导航任务和载体上均达到当前最优或极具竞争力的性能如在VLN-CE RxR数据集上多相机设置下的成功率从56.3%提升至64.4%真实世界实验验证了其在四足机器人、无人机、轮式机器人等平台上的强泛化性和实际适用性。[ICLR 2026] DexNDM: Closing the Reality Gap for Dexterous In-hand Rotation via Joint-wise Neural Dynamics Model提出机构清华大学、北京大学、上海期智研究院、Galbot论文链接https://arxiv.org/abs/2510.08556v1项目主页https://meowuu7.github.io/DexNDM研究背景灵巧手内物体旋转任务面临严重的“仿真-现实鸿沟”复杂的接触动力学导致现有方法难以从仿真迁移到现实世界。现有方法多局限于简单几何形状、有限尺寸或固定手腕姿态且数据采集依赖人工干预难以覆盖多样化的物体和场景。论文内容提出DexNDM框架通过关节级神经动力学模型和自主数据采集策略解决仿真-现实迁移问题。首先采用“专家-通用” pipeline 训练基础策略先针对不同物体类别训练专属专家策略再通过行为克隆蒸馏为统一通用策略。随后设计关节级神经动力学模型将高维系统动力学分解为单个关节的动态演化仅利用单个关节的本体感受历史预测其状态提升数据效率和泛化性。同时提出“混沌箱”自主数据采集策略通过随机负载获取多样化真实世界交互数据无需人工重置。最后训练残差策略适配基础策略实现仿真到现实的迁移并验证了其在复杂形状、高长宽比物体及多样手腕姿态下的旋转能力还展示了在遥操作复杂任务中的应用。主要创新点提出关节级神经动力学模型通过分解系统动力学在不依赖物体状态估计的情况下实现高效、泛化的动力学建模降低数据需求。设计全自主数据采集策略利用随机负载生成多样化交互数据避免灾难性失败和人工干预提升数据采集效率和覆盖范围。采用“专家-通用”策略蒸馏范式结合残差适配方法实现复杂物体旋转策略的仿真-现实高效迁移。实现了前所未有的通用性可处理高长宽比达5.33、复杂形状、小尺寸物体支持多种手腕姿态和旋转轴的空中旋转。仿真中通用策略在 unseen 物体上的性能超越现有基线37%-81%现实世界中成功实现复杂形状、高长宽比物体的空中旋转在多种手腕姿态下表现稳定且在遥操作任务中能够完成工具使用和装配等复杂操作性能优于AnyRotate和Visual Dexterity等现有方法。[ICRA 2026] TrackVLA: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking提出机构北京大学、Galbot等论文链接https://arxiv.org/abs/2510.07134v1项目主页https://pku-epic.github.io/TrackVLA-plus-plus-Web/研究背景具身视觉跟踪EVT是陪伴机器人、引导机器人等应用的基础能力但现有方法缺乏明确的空间推理能力和有效的时间记忆机制在严重遮挡或存在视觉相似干扰物的场景下易失效。论文内容提出TrackVLA一种新型视觉-语言-动作VLA模型通过引入空间推理机制和目标识别记忆TIM模块提升长时程跟踪和高拥挤场景下的跟踪性能。模型基于导航基础模型NavFoM构建整合视觉、语言输入与推理、记忆模块输出预测跟踪轨迹并通过两阶段训练优化轨迹规划、推理和文本预测损失。主要创新点提出Polar-CoT机制采用链思Chain-of-Thought范式通过极坐标编码目标相对位置生成紧凑的推理令牌在保证计算效率的同时提升空间推理能力。设计目标识别记忆TIM模块采用置信度门控更新策略结合Polar-CoT的空间预测结果整合历史与新视觉特征增强长时程目标记忆和遮挡场景下的鲁棒性。自然扩展至多视图设置无需额外修改即可兼容多相机输入且能提升跟踪性能。在EVT-Bench、Gym-UnrealCV等基准测试中单视图和多视图设置下均达到最先进性能在具身视觉跟踪EVT-Bench DT分裂数据集上超越此前领先方法在真实世界的遮挡、蜿蜒路径、干扰物场景中表现出强鲁棒性零样本泛化能力突出且保持高效的推理速度。[ICRA 2026] UrbanVLA: A Vision-Language-Action Model for Urban Micromobility提出机构北京大学、Galbot、中国科学技术大学、北京智源人工智能研究院论文链接https://arxiv.org/abs/2510.23576v1项目主页https://pku-epic.github.io/UrbanVLA-Web/研究背景城市微移动应用如配送机器人需要在大规模动态城市环境中长时程导航但现有方法多适用于小规模可控场景且难以对齐导航工具的噪声路径与真实视觉观测同时缺乏对城市导航规则和动态障碍的适应性。论文内容提出UrbanVLA一种路线条件的视觉-语言-动作VLA框架将导航工具输出的路线与视觉观测对齐直接预测导航轨迹。采用两阶段训练先通过模拟环境轨迹和网络视频解析数据进行有监督微调SFT再通过模拟-真实混合数据集的隐式Q学习IQL强化微调RFT提升安全性和适应性。主要创新点首个路线条件的城市微移动VLA模型整合高层导航工具引导与视觉-语言策略学习解决噪声路线与真实环境的对齐问题。提出启发式轨迹提升HTL算法从原始轨迹中提取高层路线信息避免模型过度拟合理想路线增强对真实场景噪声的鲁棒性。采用SFTRFT两阶段训练 pipeline结合模拟与真实数据提升障碍规避、行人交互和交通规则遵守等安全关键行为。在MetaUrban基准的SocialNav任务中性能超越基线方法55%以上在真实城市环境的天桥穿越、行人交互、转弯、障碍规避等场景中实现500米以上长时程可靠导航展现出强泛化性和动态环境适应性。[ICRA 2026] Robust Differentiable Collision Detection for General Objects提出机构北京大学、Galbot、清华大学、香港理工大学论文链接https://arxiv.org/abs/2511.06267v1项目主页https://github.com/JYChen18/DiffCollision研究背景碰撞检测是机器人仿真、控制和规划的核心组件但传统算法如GJKEPA不可微限制了接触密集型任务如抓取、操作的梯度优化现有可微碰撞检测方法仅适用于凸物体且对复杂几何形状缺乏鲁棒性。论文内容提出一种鲁棒高效的可微碰撞检测框架支持凸形和凹形物体通过距离基一阶随机平滑、自适应采样和等效梯度传输实现可靠的梯度计算。该框架可计算接触点最近点或最深穿透点的导数适用于机器人抓取优化等下游任务。主要创新点提出距离基软最大化平滑替代传统方向基方法自然扩展至非凸物体避免方向消失导致的数值不稳定性。设计自适应采样策略基于目标接触点动态筛选表面采样点提升复杂几何形状的接触点近似精度且支持GPU并行。引入等效梯度传输技术解决单物体姿态优化场景下的效率问题使梯度更新更合理。在DexGraspNet和Objaverse数据集的复杂网格上中位数误差低于0.1毫米毫米级精度超越基线40%以上在灵巧抓取优化应用中成功细化抓取姿态以提升抓取质量且保持高效的计算速度和内存占用。写在最后若想了解更多动态与成果欢迎持续关注实验室主页https://cfcs.pku.edu.cn/people/faculty/hewang/index.htm。整体来看王鹤教授实验室的研究布局呈现出**“以灵巧操作为核心以具身多模态大模型为主线全面推动通用具身智能的系统性突破”**的鲜明特征在硬件载体上覆盖灵巧手、移动机器人、四足机器人、无人机、城市微移动平台等多类形态在技术路径上从灵巧抓取BODex、DexVLG、非抓取操作DyWA、手内旋转DexNDM到具身导航NavFoM、视觉跟踪TrackVLA、城市微移动UrbanVLA全面布局打通了感知、推理、规划与控制的完整链路在方法创新上融合双层优化、可微碰撞、神经动力学、视觉编程、流匹配、扩散Transformer等前沿技术持续突破仿真-现实鸿沟与开集泛化瓶颈在数据与基准建设上自主构建了DexGraspNet3.0、OrienText300K、多载体导航数据集等一系列大规模高质量资源推动领域标准化与可复现研究。期待上述方向能为相关领域的学习者、科研爱好者乃至正在考虑考研或攻读博士的同学提供有价值的参考与启发。实验室持续开放、活跃的研究氛围相信王老师也始终欢迎有志于具身智能研究的同行与学子加入探索。