DiffusionVG 是一个以扩散模型为基础的新框架,通过生成随机噪声输入逐步改进的逆向扩散过程,将视频定位作为一项条件生成任务,并在主流 Charades-STA 和 ActivityNet Captions 基准测试中展示了竞争性甚至优越的性能。
Oct, 2023
本研究提出了一种基于 transformer 的视觉定位框架,通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位,并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。
Apr, 2022
通过多模态预训练的方法,我们提出了一个简洁高效的分层多模态细粒度调制框架 HiVG,用于解决通过自然语言对视觉区域进行视觉定位的任务,并且在五个数据集上的实验证明了该方法的有效性和显著的视觉定位能力及能源效率优势。
Apr, 2024
本文提出了一种基于 Transformer 的视觉定位框架 TransVG,通过建立多模态对应关系,实现使用简单 Transformer 编码器层替代复杂的融合模块,在五个广泛使用的数据集上取得了一系列最先进的记录并构建了基于 Transformer 的视觉定位框架基准。
Apr, 2021
我们提出了一种名为 EpmVG 的多模态可视化定位的强化预训练模型框架,通过一种跨模态蒸馏机制,它能有效引入预训练模型中图像和文本的一致性信息,减少主干网络中存在的域差,从而提高了模型在可视化定位任务中的性能,实验证明我们的方法优于现有的最先进方法。
Dec, 2023
本研究的关键词是开放式词汇学习、视觉定位、新概念、语言描述和对象检测。通过引入新颖和具有挑战性的任务,即开放式视觉定位与开放式短语定位,这项研究的目标是在语言描述和新对象的定位之间建立联系。我们提出了一种新的框架来加强对新类别的识别,并增强视觉和语言信息之间的对齐。经过广泛的实验验证,我们的提议框架在开放式视觉定位任务上始终达到了最先进的性能。
利用预训练的生成扩散模型直接应用于视觉定位的零阶视觉定位任务,以图文扩散模型为基础设计了一个全面的区域评分方法,证明了其在零阶视觉定位上的强大性能。
Sep, 2023
本文提出了一个新的基准数据集 SK-VG,其中图像内容和指代表达不足以确定目标对象,迫使模型在长篇场景知识上具备推理能力。我们提出了两种方法来接受三元类型的输入,前者在图像查询交互之前将知识嵌入图像特征,后者利用语言结构来辅助计算图像文本匹配。通过大量实验证明了所提方法的可行性,并展示了他们取得的有希望的结果,但仍有改进的空间,包括性能和可解释性。
Jul, 2023
通过使用大型语言模型,我们提出了一种零样本开放词汇的三维视觉定位方法,使用独特的基于对话的方法和视觉程序模块,以及创新的语言 - 物体关联模块,在三维场景中实现了复杂推理,并扩展了现有三维物体检测器的应用范围,取得了显著的性能优势。
Nov, 2023
通过对视觉线索进行引导,使用对比区域引导(CRG)方法可以提高视觉 - 语言模型(VLMs)在多种视觉 - 语言任务上的性能,减少模型偏见,提高准确性。
Mar, 2024