- 多模态 LLM 的视觉缺陷探究
通过对 CLIP 模型的视觉嵌入空间与仅视觉自监督学习的对比研究,我们发现最新的多模态大型语言模型(MLLMs)在视觉能力方面仍然存在系统性缺陷。为了解决这些问题,我们提出了一种特征混合(MoF)方法,通过将视觉自监督学习特征与 MLLMs - 通过有效的跨模态蒸馏弥合视觉定位的模态差距
我们提出了一种名为 EpmVG 的多模态可视化定位的强化预训练模型框架,通过一种跨模态蒸馏机制,它能有效引入预训练模型中图像和文本的一致性信息,减少主干网络中存在的域差,从而提高了模型在可视化定位任务中的性能,实验证明我们的方法优于现有的最 - AAAI循环一致性学习用于字幕生成和定位
我们提出了一个名为 CyCo 的循环一致学习框架,用于连接视觉定位和图像描述,实现二者的协同训练;这个框架不仅允许半弱监督训练视觉定位,而且改善了全监督视觉定位的性能,并且生成了一个通用的图像描述模型,能够描述任意的图像区域。大量实验证明, - GroundVLP:从视觉语言预训练和开放词汇对象检测中利用零样本视觉定位
通过现有的图像 - 文本配对模型和纯物体检测数据,我们提出了一种名为 GroundVLP 的简单而有效的零样本方法,该方法结合了 GradCAM 热力图和开放词汇检测器的对象提案,用于捕捉视觉环境并解决视觉定位任务中数据标注不足的挑战,实验 - 上下文解缠和原型继承的鲁棒视觉定位
我们提出了一种新的框架,通过上下文解藕和原型继承来处理标准场景和开放词汇场景下的鲁棒视觉定位,实验证明我们的方法在两种情景中优于现有方法。
- GPT-4 增强型自动驾驶多模态基础:借助大型语言模型的跨模态注意力
在自动驾驶车辆领域中,准确识别指挥者意图并在视觉环境中执行语言指令是一个巨大的挑战。本文介绍了一个复杂的编码器 - 解码器框架,用于解决自动驾驶车辆中的视觉 grounding 问题。我们的 Context-Aware Visual Gro - 通过多模态部分对齐进行基于视觉信息的 BERT 表示扩展
通过将 BERT 模型的上下文表示与视觉信息进行融合,GroundedBERT 方法在语言任务中明显优于基准模型,解决了语言模型在视觉语境处理中的限制问题。
- 基于图像和描述之间的结构相似性的零样本指称表达理解
用大型基础模型在视觉和文本之间解耦,并通过计算结构相似矩阵和三元组匹配来提高零样本参照表达理解及视觉定位性能。
- 基于深度学习的视觉 - 语言任务统一框架
通过引入 pool-adapter 模块,保留视觉嵌入的位置信息,我们的 InfMLLM 方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。
- 基于 CLIP 的语言引导机器人抓取:在杂乱环境中的参考抓取合成
这项研究关注于在人类中心环境中操作的机器人,通过整合视觉定位和抓握能力,根据用户指令高效操纵物体。首先创建了一个基于 OCID 数据集中杂乱室内场景的难题基准,其中生成指代表达式并与 4 自由度的抓握姿势相连接,然后提出了一种新颖的端到端模 - GPT-4V 在医学影像中的多模态能力综合研究
这篇论文全面评估了 GPT-4V 在不同的医学图像任务中的能力,包括放射学报告生成、医学视觉问答和视觉基础。我们的研究首次对公开可用的基准进行了定量评估,发现了 GPT-4V 在为胸部 X 射线图像生成描述性报告方面的潜力,特别是在有良好结 - CityRefer:城市尺度点云数据的地理感知 3D 视觉引导数据集
介绍了 CityRefer 数据集,该数据集是最大的城市级地理定位数据集,用于表示具体的 3D 物体,并开发了基线系统来执行视觉定位任务。
- 上下文有重要性:具有可变形注意力的端到端全景叙述关联匹配网络
提出了一种名为 DRMN(Deformable Attention Refined Matching Network)的新颖学习框架,通过引入可变形注意力,在特征学习的迭代过程中融入不同尺度像素的重要上下文信息,从而提高文本短语与图像像素之 - OV-VG:开放词汇视觉定位基准
本研究的关键词是开放式词汇学习、视觉定位、新概念、语言描述和对象检测。通过引入新颖和具有挑战性的任务,即开放式视觉定位与开放式短语定位,这项研究的目标是在语言描述和新对象的定位之间建立联系。我们提出了一种新的框架来加强对新类别的识别,并增强 - EMNLP阅读书籍很好,但驾车时不适合!关于非抗辩常识规范的视觉确定性推理
解读可废除文明规范的视觉基准下的常识法则对机器来说是一项挑战,并提出一种通过提取大型语言模型中的社会常识知识来改善模型与人类对齐的新方法。
- VGDiffZero: 文本到图像扩散模型可以进行零射击视觉定位
利用预训练的生成扩散模型直接应用于视觉定位的零阶视觉定位任务,以图文扩散模型为基础设计了一个全面的区域评分方法,证明了其在零阶视觉定位上的强大性能。
- HuBo-VLM:为人机交互任务设计的统一视觉语言模型
本文提出了一种基于统一变压器视觉语言模型的 HuBo-VLM 方法,用于解决与人机交互相关的感知任务,包括物体检测和视觉定位,丰富的实验表明了该方法的有效性。
- 语言引导扩散模型用于视觉定位
通过去噪扩散建模的语言引导扩散框架(LG-DVG)提出了一种逐步推理的视觉定位方法,可持续改进查询 - 区域匹配,在跨模态对齐任务中以生成方式解决视觉定位,并在多个数据集上验证其超凡性能。
- 基于中心点监督的迭代稳健视觉定位
通过引入迭代的鲁棒视觉定位框架,以及基于屏蔽参考点的中心化监督和多阶段假警敏感解码器,该研究提出了一种在给定表达式的情况下从图像中定位目标对象的方法,以提高可靠性和准确性,并在实验中展示了其在常规和鲁棒视觉定位数据集上的较好结果。
- CVPR运用场景知识推进视觉连接:基准与方法
本文提出了一个新的基准数据集 SK-VG,其中图像内容和指代表达不足以确定目标对象,迫使模型在长篇场景知识上具备推理能力。我们提出了两种方法来接受三元类型的输入,前者在图像查询交互之前将知识嵌入图像特征,后者利用语言结构来辅助计算图像文本匹