Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space

📅 发布时间：2026/7/5 23:36:30 👁️ 浏览次数：

Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding SpaceAuthors:Zihang Wang, Siyue Zhang, Yilun Zhao, Jingyi Yang, Tingyu Song, Anh Tuan Luu, Chen ZhaoDeep-Dive Summary:多模态嵌入空间中的扩散与自回归视觉语言模型分析报告这是一篇关于评估扩散视觉语言模型Diffusion VLMs作为多模态嵌入模型效果的研究。以下是该论文主要内容的中文摘要。摘要嵌入模型是现代 AI 系统如语义搜索和检索增强生成的基础。虽然大语言模型LLMs和视觉语言模型VLMs在嵌入领域取得了进展但新兴的扩散大语言模型dLLMs是否能作为有效的多模态嵌入模型尚不明确。本研究系统地评估了前沿的扩散 VLMs如 LaViDa, MMaDA与自回归 VLMs如 LLaVA-1.6, Qwen2.5-VL在分类、视觉问答VQA和信息检索三大类任务中的表现。结果显示扩散 VLMs 的表现普遍逊于自回归模型。其中 LaViDa 表现较为接近而在 MMaDA 上存在显著差距超过 20 个百分点。进一步分析表明扩散模型中图像与文本的对齐不足是导致其嵌入性能受限的主要原因。1. 引言嵌入模型将文本、视觉等输入映射为定维向量用于高效的语义比较和检索。近期基于 LLM 和 VLM 的嵌入模型如 E5, BGE, GME发展迅速。与此同时基于离散扩散过程的 dLLMs如 LLaDA, Dream凭借双向注意力和并行生成的优势成为了自回归模型的有力竞争者。本研究首次对扩散和自回归 VLM 嵌入模型进行了系统性评估。通过对比微调在 32 个数据集上进行测试探讨扩散模型是否能利用其固有的双向注意力机制在嵌入任务中获得优势。图 1三个多模态嵌入元任务的平均性能。总体而言尽管使用了双向注意力扩散 VLM 嵌入的表现仍逊于自回归 VLM。不过不同扩散模型之间存在显著差异LaViDa 保持了竞争力而 MMaDA 差距较大。2. 背景多模态嵌入任务旨在学习一个统一的表示空间使得不同模态如文本和图像的语义相关内容可以被直接比较。多模态大扩散语言模型与自回归 LLM 不同dLLMs 通过迭代去噪过程重建受损的标记序列。最近的研究如 LaViDa, MMaDA将这一范式扩展到多模态结合了视觉编码器和多模态微调。3. 扩散 VLM 嵌入扩散 VLM 嵌入模型通过视觉编码器整合图像输入并利用 VLM 主干网络共同处理图文。自回归模型通常使用最后一个标记last-token的表示而扩散模型则通过均值池化mean pooling聚合上下文表示。在对比微调过程中查询q qq包含图像、指令和文本和目标t tt被编码为稠密向量h hh。优化目标是标准的 InfoNCE 损失L \mathcal{L}Lmin ⁡ L − log ⁡ ϕ ( h q , h t ) ϕ ( h q , h t ) ∑ t − ϕ ( h q , h t − ) \min \mathcal{L} -\log \frac{\phi(\mathbf{h}_q,\mathbf{h}_t )}{\phi(\mathbf{h}_q,\mathbf{h}_t ) \sum_{t^{-}}\phi(\mathbf{h}_q,\mathbf{h}_t - )}minL−logϕ(hq,ht)∑t−ϕ(hq,ht−)ϕ(hq,ht)其中ϕ \phiϕ是温度缩放后的余弦相似度。图 2 展示了自回归与扩散架构在注意力机制上的区别自回归模型使用因果注意力Causal Attention而扩散模型支持双向注意力Bidirectional Attention。4. 实验设置4.1 任务评估涵盖了三大元任务均被建模为排名问题分类评估模型捕获判别性语义特征的能力如对象类别、主题标签。视觉问答 (VQA)将 VQA 视为在候选答案空间中的检索任务。信息检索评估跨模态对齐和指令遵循能力如根据图文指令检索目标图像。4.2 模型自回归模型LLaVA-1.6 (7B), Qwen2.5-VL (7B)。扩散模型MMaDA (8B), LaViDa (7B)。5. 实验结果表 210 个 VQA 任务的性能对比。数据集LLaVA-1.6Qwen2.5-VLMMaDALaViDaOK-VQA73.158.142.061.1DocVQA78.790.117.282.9GQA60.747.451.167.0所有 VQA 平均57.859.025.957.5总体表现自回归模型一致优于扩散模型。LaViDa 的差距较小约 2.5-4.4 点而 MMaDA 在所有任务中均出现大幅下滑。域外泛化尽管 LaViDa 在域内任务表现稍逊但在某些域外out-of-domain任务中表现出更强的鲁棒性甚至超过了 LLaVA-1.6。跨模态对齐缺陷扩散模型在图像到文本检索任务中表现较差反映了其图文对齐程度较低。6. 分析RQ1微调数据量影响。所有模型的性能在少量数据下即迅速饱和。LLaVA-1.6 的数据效率最高。RQ2对齐可视化。通过 t-SNE 可视化发现LaViDa 在微调早期图像和文本向量分布完全分离即便在后期其配对距离仍大于 LLaVA-1.6。图 3随着微调数据量的增加不同模型的性能变化趋势。图 4MSCOCO_i2t 数据集上的查询-目标嵌入对 t-SNE 可视化。虚线连接对应的图文对LaViDa 的对齐距离明显长于 LLaVA-1.6。RQ3视觉编码器微调。解冻 MMaDA 的视觉编码器并不能显著提升嵌入性能表明主要限制在于大语言模型主干的表示能力。7. 结论与局限性本研究首次系统对比了扩散与自回归 VLMs 的多模态嵌入能力。虽然扩散模型拥有双向注意力优势但目前在跨模态对齐和整体理解能力上仍落后于自回归模型。研究局限性包括由于资源限制未进行更大规模百万级的数据微调以及未涵盖最新发布的 DiffusionVL 等新型模型。Original Abstract:Embedding models are a fundamental component of modern AI systems such as semantic search and retrieval-augmented generation. Recent advances in large foundation models have substantially accelerated the development of embedding models, including those based on Large Language Models (LLMs), Vision Language Models (VLMs), and Multimodal LLMs. More recently, Large Diffusion Language Models (dLLMs) and Multimodal dLLMs have emerged as competitive alternatives to autoregressive models, offering advantages such as bidirectional attention and parallel generation. This progress naturally raises a critical yet unexplored question: can Multimodal dLLMs serve as effective multimodal embedding models? To answer this, we present the first systematic study of converting Multimodal dLLMs into embedding models. We evaluate state-of-the-art Multimodal dLLMs and Autoregressive VLMs across three categories of embedding tasks: classification, visual question answering, and information retrieval. Our results show that Multimodal dLLM embeddings generally underperform their autoregressive VLM counterparts. The stronger diffusion-based model, LaViDa, lags by only 3.5 points on classification, 2.5 points on VQA, and 4.4 points on retrieval tasks, whereas the other diffusion-based model, MMaDA, exhibits substantially larger performance gaps, exceeding 20 points across all tasks. Further analysis reveals insufficient image-text alignment in diffusion-based models, accounting for the observed limitations in their embedding performance.PDF Link:2602.06056v1部分平台可能图片显示异常请以我的博客内容为准

相关新闻

最新新闻

日新闻

周新闻

月新闻