VSI bench介绍

📅 发布时间:2026/7/5 13:22:01 👁️ 浏览次数:
VSI bench介绍
文章标题Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces单位纽约大学团队李飞飞Saining Xie文章提出了一个新的任务就是给定一段视频需要MLLM对该视频进行空间推理包括空间中的物体的距离物体的个数物体的尺度大小等等文章结论证明显示的文字思维链不能提升模型效果而隐式的cognition map可以增强模型的空间尺度理解能力Visual-Spatial IntelligenceVisual-Spatial Intelligence - VSI基于视觉的空间智能空间推理包括两个部分第一个是视角变换第二个是空间关系推理VSI bench本文提出的VSI bench 包括了5000个问题对。包含288个真实室内场景288条video数据集来源为ScannetScannet和ARKitScenesARKitScenes 150 samplesScanNet 50 samplesScanNet 88 samples数据集被划分为了3个不同的任务种类包括了8种不同的任务1空间布局包括相对方向相对距离物体计数路径规划2空间测量物体的大小房间的大小绝对距离3时空理解 需要知道物体出现的相对顺序8种问题的模板数据集视频的时间在1分钟到5分钟不等但对于大部分方法实际上只会使用抽取其中的32帧评估方式在VSI bench数据集中问题的回答只有两种选择题或者数字填空题Multiple-Choice Answer (MCA) or Numerical Answer (NA) format对于数字的回答使用Mean Relative Accuracy (MRA)VSI bench还有一个tiny的版本a subset of 400 questions (50 per task)benchmark实验作者让Gemini-1.5 Pro通过文字的方式输出cognitive maps来判断模型的mental representation。但这只是让模型显式的输出这个cognitive map其实模型在推理时应该是在内部具备这个建模能力的。思考是否可以先显式的训练这部分的建模能力然后再变成隐式的推理实验证明通过prompt Gemini-1.5 Pro在回答问题之前先generate cognitive map可以提升模型的性能然而如下表所示在7B的模型上加入了cognitive map反而会掉点虽然论文说的是输入video但实际上处理时还是截取的其中的32帧或者其他数量的帧数对于某些任务输入vision和不输入vision基本上没有区别说明数据集存在一定的局限性把问题放到视频的前面会掉点。在问题后面再次加入一次video会涨点这说明模型还是需要推理能力的而不是把视频看完一遍就直接输出答案This finding suggests that, despite its remarkable capabilities, a powerful MLLM like Gemini still has suboptimal reasoning processes for Video QA.