- 语言引导扩散模型用于视觉定位
通过去噪扩散建模的语言引导扩散框架(LG-DVG)提出了一种逐步推理的视觉定位方法,可持续改进查询 - 区域匹配,在跨模态对齐任务中以生成方式解决视觉定位,并在多个数据集上验证其超凡性能。
- 基于中心点监督的迭代稳健视觉定位
通过引入迭代的鲁棒视觉定位框架,以及基于屏蔽参考点的中心化监督和多阶段假警敏感解码器,该研究提出了一种在给定表达式的情况下从图像中定位目标对象的方法,以提高可靠性和准确性,并在实验中展示了其在常规和鲁棒视觉定位数据集上的较好结果。
- CVPR运用场景知识推进视觉连接:基准与方法
本文提出了一个新的基准数据集 SK-VG,其中图像内容和指代表达不足以确定目标对象,迫使模型在长篇场景知识上具备推理能力。我们提出了两种方法来接受三元类型的输入,前者在图像查询交互之前将知识嵌入图像特征,后者利用语言结构来辅助计算图像文本匹 - BuboGPT:多模态 LLM 中的视觉定位
BuboGPT 是一种多模态的 LLM,具有视觉定位和文本 - 图像 - 音频理解的能力,通过 SAM 和一个两阶段的训练方案来实现实体识别和对应目标的定位。在任意模态组合 (对齐或未对齐) 的情况下,BuboGPT 在与人类交互时表现出令 - GVCCI: 语言引导下的机器人操作视觉理解的终身学习
本篇论文提出了 GVCCI,一种基于生动地场景生成指引的视觉定位无监督学习框架,该框架通过利用生成的数据持续学习视觉定位模型,并在语言引导机器人操作方面取得了良好的效果。
- OG:采用实例分割和视觉定位技术增强视觉占有率
本篇研究提出一种称为 Occupancy Grounding (OG) 的新模型,该模型通过实例分割和视觉定位实现体素的可视化推理。该方法采用的关键策略是亲和力领域预测和对其进行实例聚类,并以对齐 2D 实例掩模和 3D 所占据的实例的关联 - CVPR多任务视觉引导的语言自适应权重生成
本文介绍一种基于语言自适应权重的主动感知视觉定位框架,称为 VG-LAW,在使用具有表达特定线索的表达式引导下,使用视觉骨干作为具有表达特定特征的特征提取器,其无需跨模态交互,可胜任于区分表述理解和分割任务,实验证明其表现优异。
- 模态转移中的杠杆点:比较仅语言和多模态词表示
本研究比较了来自不同模型的单词嵌入,在 46 个语义参数中识别出最受视觉语境影响的单词,并发现视觉模态效应与涉及具体性的指示语义属性最相关,但也适用于多个特定的语义类别,以及与情感相关的联想语言表达的倾向属性。
- 测量 VQA 中忠实和可信的视觉沟通
本文提出了一种新的 VG 度量标准,称为 “Faithful and Plausible Visual Grounding”(FPVG),可以衡量一个系统是否能正确识别与问题相关的目标,并在回答问题时可靠地使用这些目标信息,该方法可以用于评 - TreePrompt: 学习编写树状提示以实现可解释的视觉引导
本论文提出了一种能够提高知识转换的可解释性的命令调整范式,名为 TreePrompt,将复杂的句子分解为树,通过结构化的命令生成过程,使每个中间的命令(即树节点)都可以理解推理过程。实验证明了 TreePrompt 的有效性和可解释性。
- CLIP-VG: 利用伪语言标签自适应的 CLIP 自适应自学课程对视觉 grounding
本文提出了一种基于 CLIP-VG 的自我学习课程适应方法,通过利用伪语言标签来解决 VG 问题,以达到隐式知识利用和去噪。研究结果表明,该方法在单源和多源情况下都远优于现有的最先进的无监督 VG 方法 Pseudo-Q,甚至优于现有的弱监 - 自监督和视觉基础预训练的电影票房预测
本文探讨了自我监督预训练和视觉定位内容关键字的效果,结果表明与相同架构的微调 BERT 模型相比,视觉定位预训练可以显著提高学习能力,并实现 14.5%的相对性能提升。
- CVPR自然语言规约下的联合视觉定位及跟踪
本文提出一种联合视觉定位和追踪的框架,将定位和追踪转化为一个统一的任务,使用自然语言描述来确定目标;该框架使用多源关系建模模块和时间建模模块来构建自然语言描述和测试图像之间的关系,提供全局语义信息的指导和时间线索来提高适应性。
- AAAIDQ-DETR: 双查询检测 Transformer 用于短语提取和基础定位
本论文探讨了通过考虑短语提取和定位对象来解决视觉 grounding 问题,提出了一种新颖的 DQ-DETR 模型,通过引入双重查询并设计共享位置部分而不同内容部分,使 Transformer 解码器借助短语掩码引导注意力以提高性能。
- ECCVYORO -- 轻量级端到端视觉定位
本文介绍了一种名为 YORO 的多模态 Transformer 编码器架构,用于视觉定位任务,其采用单阶段设计,不使用 CNN 背景,通过消耗自然语言查询、图像块和可学习的检测令牌来预测所参考对象的坐标,并提出了新的贴片文本对齐损失。通过在 - 基于晶格检索的视觉引导 VQA
本论文中,我们使用信息检索的方式来考虑 VQA 一类问题。我们提出了一种新的系统,利用图计算方法通过图像的场景图和问题中的区域表达式直接实现 VG,实验结果表明,我们的系统在 VG 性能上表现最佳。
- 当前的解码策略是否能够应对视觉对话的挑战?
本文旨在探讨解码策略在视觉对话任务中的表现。通过比较不同的解码策略和超参数配置发现,目前尚未发现能同时满足单词丰富程度、任务准确性和视觉对齐要求的最佳策略,但是本文的深度分析能够提出每种策略的长处和不足,为未来的解码算法设计提供借鉴。
- 像双语婴儿一样:视觉引导双语语言模型的优势
通过使用 MS-COCO-ES 数据集中的英语和西班牙语的图像和字幕来训练 LSTM 语言模型,研究发现视觉基础能够提高语义相似性的理解能力,特别是在跨语言时,但是在抽象词汇方面没有显著优势。研究还指出,为了进一步提高视觉基础的语言模型的实 - EMNLP跨语言词向量的视觉定位
通过在英语、阿拉伯语和德语等语言间建立隐式的视觉及语言空间交互,研究探讨跨语言的词嵌入的视觉基础。结果表明,跨语言知识可以增强相似语言的嵌入性能,但德语或英语与阿拉伯语之间的跨语言基础稍有劣化,在归类基准上,阿拉伯语对英语改进最多。该实验为 - ECCVSiRi: 一个用于基于 Transformer 的视觉定位的简单选择性微调机制
本文研究如何使用现代视觉语言转换器实现更好的视觉定位,并提出一种简单而强大的选择性重新训练(SiRi)机制。使用 SiRi 可以显着优于以前的方法,在三个受欢迎的基准测试中表现出更好的性能,即使在有限的训练数据下也表现出惊人的优越性。同时,