SegRGB-X: General RGB-X SemanticSegmentation Model

📅 发布时间：2026/7/4 3:07:46 👁️ 浏览次数：

Abstract面向任意传感器模态的语义分割由于不同传感器之间存在显著的特性差异面临着较大的挑战同时传统的任务配置方式往往需要针对不同模态分别开发专用模型从而造成大量重复性的研发工作。为解决上述问题我们提出了一种通用的任意模态语义分割框架将多种模态下的语义分割统一到同一个模型中。该方法包含三项关键创新模态感知CLIPModality-aware CLIPMA-CLIP通过LoRA微调为不同模态提供具有针对性的场景理解指导模态对齐嵌入Modality-aligned Embeddings用于提取并表征细粒度特征领域特定细化模块Domain-specific Refinement ModuleDSRM根据不同模态和领域特性对特征进行动态调整与优化。我们在五个具有不同辅助模态的数据集上进行了评估所涉及的模态包括事件、热红外、深度、偏振和光场。实验结果表明该模型不仅超越了针对特定多模态场景设计的专用方法还取得了当前最先进的性能mIoU达到65.03%。相关代码将在论文被接收后公开。I. INTRODUCTION传感器技术的快速发展显著推动了面向语义分割的多模态融合研究进展 [1]、[2]、[3]并引发了越来越多研究者对利用多种传感器模态提升分割精度的关注。近年来已有方法 [1]、[2]、[4]、[5] 在多种多模态语义分割任务中取得了令人印象深刻的成果。然而这些方法主要依赖于面向特定模态的专用模型每个模型通常只针对某一种特定的模态组合进行定制。因此对于每一种模态配对都需要单独训练一个模型从而导致模型设计和训练过程中的大量重复工作。此外由于每项任务所能获得的数据通常较为有限这类专用模型容易过拟合于特定数据集的分布从而牺牲模型的泛化能力。虽然扩大数据集规模能够在一定程度上缓解这一问题但多模态数据的采集与标注通常需要耗费大量人力和时间。为解决这些局限开发一种能够在统一架构中联合处理多种模态的通用模型成为一个很有前景的研究方向。此类模型不仅能够利用不同模态之间共享的特征表示还可以充分利用所有可获得的训练数据。与此同时大规模预训练视觉语言模型Vision-Language ModelsVLMs例如 CLIP [6]、ALIGN [7] 和 BLIP [8]已经在广泛的视觉任务中展现出强大的泛化能力。这些模型通过海量图像—文本对进行训练学习到丰富的特征表示因此能够有效应用于多种下游任务。然而视觉语言模型在多模态语义分割中的作用仍然较为有限主要原因在于它们通常是在标准 RGB 图像及其对应文本描述上进行预训练的。因此这些模型对于事件、热红外、深度、偏振和光场等多种传感器模态的泛化能力受到限制从而降低了其在更加复杂的多模态场景中的有效性。在本工作中我们提出了SegRGB-X一种能够处理多种传感器模态的通用 RGB-X 语义分割模型。该模型架构主要包括配备模态对齐嵌入和领域特定细化模块的主干网络模态感知 CLIP语义分割预测头。为克服视觉语言模型在多模态分割任务中的局限我们使用 LoRA [13] 在多模态语义分割数据上对 CLIP 进行微调使得到的**模态感知 CLIPModality-Aware CLIPMA-CLIP**能够作为模态信息提供器。为了缓解输入嵌入特征与 MA-CLIP 生成的控制提示之间存在的特征空间差异我们提出了一种包含可学习提示的模态对齐嵌入机制。此外在主干网络的最后阶段我们设计了领域特定细化模块Domain-Specific Refinement ModuleDSRM用于进一步优化不同模态的专属特征。如图 1 所示我们在五个多模态语义分割数据集上对 SegRGB-X 进行了联合训练和评估。与当前最先进的方法相比SegRGB-X 在 DeLiVER [2]、MFNet [9]、NYUDepthV2 [10]、RGB-P [11] 和 UrbanLF [12] 五个数据集上取得了最高的平均性能。本文的主要贡献总结如下我们提出了SegRGB-X一种能够在统一框架中处理多种模态的通用模型所涉及的模态包括事件、热红外、深度、偏振和光场从而解决了传统模态专用模型需要针对不同模态分别设计和训练的问题。我们提出了MA-CLIP通过 LoRA 在多模态语义分割数据上对 CLIP 进行微调从而有效缩小视觉语言预训练与多模态语义分割之间的差距。我们设计了一种模态对齐嵌入机制通过引入可学习提示对输入嵌入与 MA-CLIP 所生成控制提示之间的特征空间进行对齐。在主干网络的最后阶段我们进一步设计了 DSRM用于自适应地细化模态专属特征从而提升语义分割性能。我们在五个具有不同模态类型的多模态语义分割数据集上进行了联合训练和评估。SegRGB-X 取得了65.03% 的平均 mIoU达到当前最先进水平并超越了以往针对特定模态设计的专用模型。II. RELATEDWORKa多模态语义分割为了克服RGB图像的局限性近年来多模态语义分割研究开始探索多种模态组合以获得优于传统纯RGB方法的分割性能。RGB-D融合方法 [14]、[15]、[16] 利用深度信息增强场景理解能力而RGB-热红外方法则引入针对热红外模态设计的融合策略 [17]、[18]、[19]。与此同时一些新的传感器模态也逐渐受到关注例如用于透明物体分割的偏振信息 [20]以及用于场景分析的事件数据 [21]、[22]、[23]、[24]。其他相关进展还包括面向LiDAR数据的感知融合方法 [25]、深度自适应卷积技术 [26]、[27]、[28]以及多任务掩码自动编码方法 [29]。此外研究者还提出了多种基于注意力机制的融合方法以促进不同模态之间的交互 [30]、[31]、[32]。CMX [1] 是处理任意固定RGB-X模态对的一项代表性工作。CMNeXt [2] 进一步将这一能力扩展到任意但固定的多模态组合。在CMNeXt的基础上后续又出现了多种改进方法。Gemini Fusion [4] 借鉴Token融合思想采用逐像素注意力机制进行多模态融合。MAGIC [33] 提出了一种多模态聚合模块用于高效提取不同模态之间的互补场景信息其改进版本Magic [34] 进一步引入了多尺度任意模态选择模块Multi-scale Arbitrary-modal Selection ModuleMASM和一致性训练策略。StitchFusion [5] 使用多方向MLP以增强不同模态之间的信息共享和特征融合。Any2Seg [35] 则提出了语言引导的语义相关性蒸馏模块在嵌入空间中同时建模模态间语义关系和模态内语义关系。尽管上述方法取得了较强的性能但它们在训练阶段通常依赖预先固定的输入模态因此难以灵活适应不同的传感器组合。相比之下我们提出了一种通用的任意模态语义分割框架使一个通用模型能够统一处理多种不同的传感器模态。b视觉语言模型通过可扩展的预训练策略视觉—语言理解近年来取得了显著进展。CLIP [6] 提出了基于对比学习的图像—文本对齐方法为多模态表征学习奠定了基础。ALIGN [7] 进一步利用大规模网络数据中的噪声监督提高了模型的鲁棒性。BLIP [8] 则通过自举式预训练将视觉—语言理解与生成任务统一到同一框架中。近年来提示学习技术 [36] 以及 LLaMA-Adapter [37] 等轻量级适配器的发展也进一步提升了模型面向下游任务进行高效适配的能力。DA-CLIP [38] 提出了一种新的双编码器框架其中引入了一个图像控制器。该控制器最初由 CLIP 图像编码器复制而来通过学习对原始编码器进行控制并生成退化表征嵌入。尽管这些视觉语言模型具备出色的表征能力但它们主要是在自然图像—文本对上进行训练并非专门针对涉及 RGB-X 模态的任务而设计。因此将其应用于多模态语义分割时仍然面临较大挑战。为弥补这一不足本文采用基于 LoRA 的参数高效微调方法 [13]使 CLIP 能够适应跨模态特征对齐。该方法实现了视觉—语言预训练知识与多种传感器模态的有效结合从而增强模型对复杂场景进行全面理解的能力。III. METHODOLOGY在本节中我们介绍SegRGB-X——一个通用的RGB-X语义分割模型。首先在第III-A节概述整体流程随后分别详细阐述三个核心组件第III-B节介绍MA-CLIP第III-C节阐述模态对齐嵌入技术第III-D节说明 DSRM 。损失函数则在第III-E节中予以说明。A. Overview如图2所示我们提出的SegRGB-X模型主要由以下部分组成配备模态对齐嵌入和DSRM的主干网络模态感知CLIPMA-CLIP语义分割头。首先对MA-CLIP进行预训练使其能够从不同类型的输入数据中提取模态特定的表征。完成预训练后MA-CLIP的参数被冻结并作为模态信息提供器使用。RGB图像和任意辅助模态输入分别通过MA-CLIP进行并行处理从而生成对应的特征嵌入 (S^r) 和 (S^m)。主干网络由四个阶段组成。在每个阶段中采用共享权重的Transformer模块 [39]同时处理两个经过模态对齐的嵌入。不同模态分支之间共享Transformer模块的参数以保证特征提取过程的一致性和高效性。在特征融合阶段模型采用CMNeXt [2] 中的FRM和FFM模块对RGB分支与辅助模态分支的特征进行整合。在主干网络的最后一个阶段引入领域特定细化模块Domain-Specific Refinement ModuleDSRM用于自适应地细化不同模态的专属特征。最后语义分割头接收来自四个阶段的融合特征并生成最终的语义分割预测结果。B. Modality-aware CLIP模态感知CLIPModality-aware CLIPMA-CLIP的目标是使预训练的CLIP模型能够从多种不同的输入模态中提取具有模态特异性的表征。具体而言为弥补CLIP [6] 对辅助模态先验知识不足的问题我们引入LoRA [13]进行适配。在训练过程中我们冻结预训练CLIP [6] 的全部参数仅对LoRA [13] 模块进行微调。由于本文所使用的训练数据集规模远小于视觉语言模型所采用的网络级大规模数据集因此这种LoRA微调策略能够在保留原始图像编码器能力的同时减轻模型过拟合问题。随后这些特征嵌入会进一步输入语义分割主干网络以辅助完成细粒度语义分割任务。如图3所示MA-CLIP冻结了原始CLIP架构 [6] 中的文本编码器和图像编码器。为了使图像编码器能够适应不同类型的输入模态我们设计了一个LoRA池LoRA pool其中包含所有数据集所支持模态对应的LoRA模块。LoRA池中的每个LoRA模块 [13] 均采用对比学习损失 [6] 进行训练。训练时梯度通过图像编码器的计算过程并更新当前模态所对应的LoRA模块。C. Modality-aligned Embedding提示Prompt通常用于为模型提供引导信息使其能够相应地调整自身行为。基于这一思想设输入的图像块嵌入为模态特定提示嵌入为。将二者拼接后新的输入表示为为了执行注意力计算首先通过投影矩阵得到查询、键和值随后注意力矩阵可以分解为其中AEEA_{EE}AEE 和 AMMA_{MM}AMM 分别表示图像块嵌入之间以及模态提示之间的自注意力AEMA_{EM}AEM 和 AMEA_{ME}AME 则表示图像块嵌入与模态提示之间的交互。注意力输出可以表示为为了避免错误信息在不同编码器层之间持续传播模型舍弃提示对应的输出 O_M仅保留图像块对应的输出 O_E。对于 OEO_EOE 中第 i 个图像块其输出可以表示为如公式所示最终的图像块特征由两部分组成一部分来自原始图像块之间的自注意力另一部分来自额外的模态提示适配信息。在具体实现中我们将模态提示 M划分为两类阶段特定控制提示 C由 MA-CLIP 根据输入图像生成可学习的模态对齐提示 P。模态对齐提示主要用于补充模态信息和局部细节因为这些信息可能会被全局性的阶段特定控制提示所忽略因此它们起到补充信息的作用。D. Domain-specific Refinement Module不同模态通常并不是彼此独立的而是具有一定的相关性。例如光场和偏振模态在表现形式上更接近RGB深度和热红外模态虽然从不同角度描述场景内容但与RGB图像具有相同的空间结构事件模态则仅在亮度发生变化时呈现部分场景结构。因此可以认为彼此相关的模态应当共享一些相似的特征。E. Loss Function

相关新闻

最新新闻

日新闻

周新闻

月新闻