通过图像感知的属性缩减进行视觉对位的对抗性测试
使用多模态大型语言模型(MLLMs)对视觉定位进行饱受关注的对抗性攻击研究,通过提出三种对抗攻击范式来攻击 MLLMs 的视觉定位性能,进而为提高 MLLMs 的视觉定位的对抗鲁棒性提供了新的视角和强大的基线。
May, 2024
通过去噪扩散建模的语言引导扩散框架(LG-DVG)提出了一种逐步推理的视觉定位方法,可持续改进查询 - 区域匹配,在跨模态对齐任务中以生成方式解决视觉定位,并在多个数据集上验证其超凡性能。
Aug, 2023
本研究提出了一种基于 transformer 的视觉定位框架,通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位,并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。
Apr, 2022
本研究的关键词是开放式词汇学习、视觉定位、新概念、语言描述和对象检测。通过引入新颖和具有挑战性的任务,即开放式视觉定位与开放式短语定位,这项研究的目标是在语言描述和新对象的定位之间建立联系。我们提出了一种新的框架来加强对新类别的识别,并增强视觉和语言信息之间的对齐。经过广泛的实验验证,我们的提议框架在开放式视觉定位任务上始终达到了最先进的性能。
Oct, 2023
视觉问题回答中的视觉定位方法试图通过增强模型对问题相关视觉信息的依赖性来提高视觉问题回答的性能。然而,在处理大规模视觉问题回答中常见的不完美图像表示时,这种对应视觉信息的假设是存在缺陷的,其与预期的真实内容之间的偏差导致了这些方法的潜在优势被严重低估,当前的评估方案存在问题。
Jan, 2024
VEglue 是一种用于 VE 系统测试的基于对象对齐的联合擦除方法,它能检测出平均 11609 个问题,比基线方法高出 194%-2846%,并在平均下降 17.1%-38.2% 的情况下,显著提高模型性能(准确率增加了 50.8%)。
Mar, 2024
本文提出了一种新型的无监督视觉基础框架,使用概念学习作为代理任务来获得自我监督,以鼓励模型定位和解释语义属性,在多项实验中,该方法在图像本体库、ReferItGame 数据集上分别提升了 5.6% 和 5.8%,在 Flickr30k 数据集上达到了与最先进的表现相媲美的水平。
Mar, 2018
本文提出了一种新的算法 Show-and-Fool,用于研究神经图像字幕系统在机器视觉和感知中健壮的语言基础,该算法通过两种评估方法检查神经图像字幕系统是否能够误导输出某些随机选择的字幕或关键字。实验证明,我们的算法可以成功地制作出视觉相似的对抗性例子,对其他图像字幕系统高度可传递,并导致了视觉语言基础的新型健壮性影响和新的洞察。
Dec, 2017
本文提出了一个新的基准数据集 SK-VG,其中图像内容和指代表达不足以确定目标对象,迫使模型在长篇场景知识上具备推理能力。我们提出了两种方法来接受三元类型的输入,前者在图像查询交互之前将知识嵌入图像特征,后者利用语言结构来辅助计算图像文本匹配。通过大量实验证明了所提方法的可行性,并展示了他们取得的有希望的结果,但仍有改进的空间,包括性能和可解释性。
Jul, 2023
通过多模态预训练的方法,我们提出了一个简洁高效的分层多模态细粒度调制框架 HiVG,用于解决通过自然语言对视觉区域进行视觉定位的任务,并且在五个数据集上的实验证明了该方法的有效性和显著的视觉定位能力及能源效率优势。
Apr, 2024