ICLR 2026 Oral | 西湖大学发布Real PDE Bench

📅 发布时间:2026/7/5 12:43:30 👁️ 浏览次数:
ICLR 2026 Oral | 西湖大学发布Real PDE Bench
复杂物理系统的时空演化预测是科学与工程领域长期关注的核心问题典型场景涵盖流体力学、燃烧与可控核聚变等多类多尺度复杂动力学系统。近年来科学机器学习Scientific ML在神经算子、物理约束学习与大模型预训练等方向快速发展为高维、强非线性、非定常系统的高效准确建模开辟了新的范式。然而一个关键瓶颈逐渐凸显出来目前多数AI模型主要在数值仿真数据上训练与验证而真实世界的实验观测数据昂贵、稀缺且无法构成体系我们难以评估这些模型在真实世界的测量数据上究竟表现如何。现实与仿真之间存在较大的差距在现实中测量常常会受传感器噪声干扰、观测数据不完整或者实验环境不稳定等因素的影响。而仿真数据虽然能提供更全的变量和更密的参数覆盖但是却无法避免数值离散带来的误差、理想化的边界条件以及因简化物理过程而产生的偏差。正因为如此当前AI for Physics领域急需一个能同时包含真实测量数据与配对仿真数据的标准基准框架。这样的基准可以帮助AI for PDE的研究更系统地评估模型在实际测量场景下的性能进而探究“Sim-to-Real”的迁移难题从而为Scientific ML在真实世界中的部署和落地提供更可靠的评估依据。基于这一动机西湖大学吴泰霖实验室联合西湖大学范迪夏实验室以及上海交大周德智实验室提出了RealPDEBench。这是首个同时包含真实世界测量数据与配对数值仿真数据的机器学习基准框架。该基准由五个物理场景的数据集、三类任务、九个评估指标以及十个代表性基线方法构成覆盖了流体、燃烧等多个不同的复杂物理系统。它提供了一个统一、模块化的代码框架以便快速复现实验和开展扩展性的研究。五种物理场景从经典流动到燃烧多物理场RealPDEBench构建了五个具有代表性的复杂物理系统场景采集了多种工况下的真实实验测量数据计算了对应的CFD仿真数据旨在覆盖从基础流动到强耦合、多尺度、多物理过程的一系列关键挑战。最终本文提供了包含736条真实仿真配对轨迹的数据集每条轨迹记录了系统参数如雷诺数、控制频率、当量比等及其系统状态。五种物理系统包括Cylinder圆柱绕流的层流到湍流的过渡与卡门涡街的形成是流体动力学的经典非定常基准Controlled Cylinder在圆柱绕流基础上引入外部周期性控制振动幅值与频率构成了“控制响应预测”的挑战FSI流固耦合圆柱在漩涡流体作用下产生非线性涡激振动涉及流体力与结构动力学的强耦合与锁定现象Foil由三维实验/仿真提取的剖面数据体现三维效应带来的小尺度涡结构与湍流的复杂性Combustion三维旋流燃烧氨气/甲烷/空气的实验与仿真数据涉及反应流、多场耦合与多尺度动力学。在真实测量数据的采集中流体的数据通过循环水槽结合PIV粒子图像测速获取速度场燃烧数据则通过OH*化学发光成像获取火焰光强等表征量。与之配对的仿真数据使用CFD大涡模拟在匹配参数设置下生成从而形成相同工况的实验与仿真对照。经过我们的观察意识到仿真数据与真实测量数据呈现出不同的误差特性真实数据主要受到传感器噪声影响而仿真数据的误差则主要由数值误差与建模误差主导。其中仿真数据具有独特优势其获取成本更低、可提供更多观测模态物理变量并且不受测量噪声的直接影响而真实数据则反映出了物理系统外在表现的状态是物理系统真实变化的体现。三类任务设置以真实世界评测为核心的Sim-to-Real研究为了在统一框架下比较真实测量与仿真数据的训练效果RealPDEBench定义了三类预测任务并明确所有模型最终都在真实数据测试集上进行评估以贴近实际部署的目的三类任务包括仅使用仿真数据训练Simulated Training模型在仿真数据上训练直接在真实数据上测试仅使用真实数据训练Real-world Training模型只用有限真实样本训练仿真数据预训练真实数据微调Simulated PretrainingReal-world Finetuning先利用大量仿真数据预训练再用少量真实数据微调。这一设计不仅将“Sim-to-Real”定义为可量化与可复现的基准任务也为研究“如何融合仿真优势与真实可靠性”提供了简洁可用的实验平台。通过三类任务结果的对比发现首先仅使用真实数据训练的模型相较于仅使用仿真数据训练的模型具有明显优势其相对L2误差减小了9.39%至78.91%说明仅使用仿真数据训练无法准确捕捉实际场景中的复杂特性。其次以仿真预训练初始化模型参数并在真实数据上微调的模型其误差低于仅使用真实数据从头训练的模型表明仿真数据作为预训练数据对于模型性能的提升是有帮助的。此外仿真预训练还能加速真实数据训练过程中的收敛微调模型用更少的训练更新即可达到相同或更优的性能而且训练过程中RMSE损失下降更快。九个评估指标与十个基线模型同时衡量数据像素误差与物理一致性RealPDEBench不仅采用了RMSE、MAE、相对L2误差、R2等常见数据误差指标还引入了面向物理一致性的度量例如频域误差Fourier Space Error、周期性相关的Frequency Error、以及速度剖面等长期统计量MVPE。除此之外针对“sim-to-real”的问题论文还设计了更新比例Update Ratio用于刻画“仿真预训练 真实微调”相对“从真实数据直接训练”的收敛效率与准确度优势。基线模型方面论文覆盖九类深度学习模型与一个降阶模型DMD包括 U-Net、FNO、DeepONet、MWT、GK-Transformer、Transolver以及预训练foundation modelDPOT等形成从传统经典模型到大模型预训练方案的系统对照。经过系统性的实验本文发现不同模型架构在各类评测指标上呈现出不同的权衡基于卷积的模型在逐像素计算的RMSE上表现精度更高而基于算子学习与谱域的方法更能保留周期性与全局物理特征。此外自回归的长时序评估也体现了误差累积差异部分模型在短期预测中表现良好但在多步 rollout 中误差会逐步累积相比之下大规模预训练模型如DPOT能够保持更稳定的长时序预测性能。面向可落地的科学机器学习AI for Physics这一研究领域长期以来都面临着“理论上看着有用实际落地却难上加难”的困境。导致这个困境的核心原因是仿真数据和真实场景的脱节。在做仿真时无法避免地要做一些理想化简化比如忽略复杂未知的噪声、固定简化边界条件或是把物理间的耦合关系简化处理但在真实的工业生产、实际场景中物理系统的问题会更加复杂多源噪声无处不在边界条件可能随时突变还常常伴随着多尺度多物理场耦合的情况。所以本文认为未来的研究方向必须从“单纯追求仿真场景下的精度提升” 转变为“搭建仿真与真实数据之间的桥梁”。这不仅仅是算法的调整更是从“拟合那些理想化的方程”到“真正解决实际问题”的本质跨越。而RealPDEBench最有价值的地方就是通过“真实数据和仿真数据配对”的机制给解决这个核心矛盾提供了关键支撑和平台。原文下载https://iclr.cc/virtual/2026/poster/10006599公众号原文链接文末附论文资源https://mp.weixin.qq.com/s/ts04bhA57l8V-9CzR4ruRw注文章由原作者投稿分享向本公众号授权发布。更多精彩内容敬请关注微信公众号“力学与人工智能”