- 明辨视界,难答问题:基于多模态鲁棒性的机器学习语言模型评估
通过提出一个多模态鲁棒性评估基准以及一个训练集,我们发现多模态大型语言模型在理解视觉内容方面存在脆弱性,而这种脆弱性可以通过在新的训练集上进行微调来显著增强。
- InsightSee:提升多智能体视觉语言模型以增强视觉理解力
InsightSee 是一个多智能体框架,用于增强视觉语义模型在处理复杂的视觉理解场景中的解释能力,通过改进视觉信息处理的过程,提高了特定视觉任务的性能,并在 6 个基准测试中超越了现有算法,实现了多模态理解的重大进展。
- 学习物理定律的下一帧预测的能力
通过模拟视频数据集和生成式训练阶段,本研究证明下一帧预测是一种用于诱导视觉领域中多种规律的理解的通用学习策略,能够预测物理常数并显著提高模型性能。
- CVPRAutoAD III:前传 -- 回到像素
生成电影的音频描述(AD)是一项具有挑战性的任务,需要对细粒度的视觉理解和角色及其名称有意识。本文提出了两种构建与视频数据对齐的 AD 数据集的方法,并使用这些数据集构建了训练和评估数据集。我们还开发了基于 Q-former 的架构,它使用 - BRAVE:拓宽视觉语言模型的视觉编码
通常,视觉语言模型(VLM)由视觉编码器(例如 CLIP)和解释编码特征以解决下游任务的语言模型(LM)组成。我们研究拓展 VLM 的视觉编码能力以应对其局限性,我们首先全面评估了几个具有不同归纳偏差的视觉编码器在解决 VLM 任务时的性能 - 通过在合成数据中嵌入自然图像模式学习零样本材料状态分割
通过在合成数据中嵌入从真实世界图像中提取的图案,我们提出了一种方法来弥合真实世界和合成数据之间的差距,从而使生成的数据能够捕捉到真实世界的复杂性,并保持合成数据的精度和规模。我们还提出了一个类别无关的材料状态分割的基准,其包含各种材料状态的 - 基于综合切分对大型语言模型进行落地:地鼠模型
用全貌分割为基础,GROUNDHOG 将多模态大型语言模型连接到实体标记,从而优化了语言到对象的关联,提升了视觉理解和诊断能力。
- ECCVUnionDet:面向实时人物物体互动检测的联合级别检测器
通过深度神经网络和一阶段检测器,实现了对人物与对象的交互行为进行准确和快速检测,并在两个公共数据集上表现出优越性能。
- 走向更统一的上下文视觉理解
我们提出了一种新的具有多模态输出功能的视觉理解的上下文学习框架,通过将文本和视觉提示量化和嵌入到统一的表示空间中,并采用仅具有解码器的稀疏 Transformer 架构在其上执行生成建模。实验结果表明,我们的模型在统一的多模态管线中实现了与 - 面向视觉识别与推理的统一神经网络架构
图像识别和推理是视觉理解的两个支柱,最近的研究表明,多任务变压器模型可以在视觉识别和推理中提供统一的神经网络架构,通过探索不同的识别任务、数据集和归纳偏好,我们发现对象检测对推理是最有益的任务。
- 基于场景特定融合模块的 RGB-X 物体检测
多模式深度传感器融合为自动驾驶车辆在各种天气条件下实现视觉理解提供了潜力,本研究提出了一种高效、模块化的 RGB-X 融合网络,通过场景特定的融合模块,实现了利用预训练的单模态模型进行融合,从而使用小型、核心配准的多模态数据集创建联合输入自 - GPT-4V(视觉)的早期评估
GPT-4V 的能力和限制在视觉理解、语言理解、视觉拼图解决以及其他模态(如深度、热力、视频和音频)方面被评估,发现其在英语视觉基准上表现出色,但无法识别图像中的简单中文文本;在敏感特征问题、语言理解任务和类似图片之间差异的解决方面存在一些 - DyST:面向真实世界视频的动态神经场景表示
从单目真实世界视频中捕捉实际场景的三维结构和动态,通过新颖的协同训练方案与动态场景的隐含表示学习,实现视图生成并对场景的摄像机和内容进行独立控制。
- BLIVA:一个简单的多模态 LLM 用于更好地处理文本丰富的视觉问题
通过在语言模型中添加视觉理解能力,BLIVA 能够显著提高处理富含文本的视觉问答任务的性能,并在典型的视觉问答基准上取得了较高的准确率。
- 使用提示进行多模态视觉理解,实现图像语义信息的解耦
通过对多模式图像使用提示来提高图像的语义理解能力,将视觉与语言处理相结合,以生成更准确的预测和识别图像,并通过提供更强大的图像表示来改进单模态模型,这是一个有前途的研究领域。
- 一次性对 Everything Everywhere 进行分割
SEEM 是一个可提示、互动的模型,可以同时将图像中的所有内容分割成多个部分,它具有多样性、组合性、互动性和语义感知等特点。
- 通过分离空间 - 时间建模学习视频问答的细粒度视觉理解
该论文提出了一种新的视频 - 语言模型:去耦合的空间 - 时间编码器,通过将图像编码器中的空间模型独立于时间进行编码,将视频编码器中的时间模型放在较低的空间但更高的时间分辨率上进行编码并提出了一个新的预训练目标来帮助视频 - 语言模型学习视 - VQA-GNN:用多模态语义图推理进行视觉问答
本文介绍了 Visual Question Answering——Graph Neural Network 模型,用于解决视觉理解中的概念层次推理问题,与现有模型相比,该模型将图像级别信息和概念知识进行了统一,并在 VCR 任务中取得了优于 - KDD通过常识知识集成进行零样本场景图关系预测
本研究提出了一种结合常识知识的场景图关系预测框架 COACHER,以填补现有场景图生成框架中对未知三元组建模能力的不足,特别是对零样本关系预测的能力,通过在外部常识知识图中建模实体周围的邻域和路径并将其与目前最先进的 SGG 框架结合,进行 - CVPR自适应消息传递的二分图网络用于无偏场景图生成
通过引入自适应消息传递的置信度感知双分图神经网络和高效的双层数据重新采样策略,可以有效地消除偏差,进而实现对场景图生成的均衡处理。该方法在多个具有挑战性的数据集上实现了卓越或具有竞争力的性能,包括 Visual Genome,Open Im