本文提出了一种名为HINT的通用方法,通过有效利用人类演示来改善视觉基础,以优化深度神经网络的对视觉概念的敏感性,并在视觉问答和图像描述任务中应用,在仅利用6%的训练数据的人类关注示例下,优于VQA-CP和强健字幕的主要方法。
Feb, 2019
该论文提出了一种基于Transformer编码器-解码器的视觉 grounding 方法,通过在不损伤位置定位能力的前提下,在文本描述的指导下学习语义鉴别的视觉特征,具有强大的文本-视觉语境语义捕捉能力。实验结果表明,在保持快速推理速度的同时,该方法在五个基准上优于现有的提案-free 方法。
May, 2021
本文提出了一个名为SeqTR的简单且通用的网络,用于视觉定位任务和指代表达理解任务,通过将视觉定位问题视为图像和文本输入的点预测问题,可以在SeqTR网络中统一视觉定位任务而无需任务特定的分支或头,使用简单的交叉熵损失进一步降低了手工损失函数的复杂性,并且在五个基准数据集上进行的实验证明了SeqTR的可行性和优越性。
Mar, 2022
使用视觉与语言模型、视觉解释方法和近义词进行微调,目标是提高定位能力和对象高亮质量。在多个数据集中,通过该方法相较于基线方法和之前的工作获得了显著的改进。
Dec, 2023
通过引入Mask Grounding辅助任务和跨模态对齐损失以及对应的对齐模块,提出了一种用于改善参照图像分割算法的综合方法MagNet。该方法通过教授模型学习掩蔽文本标记与匹配的视觉对象之间的细粒度对应关系,在RefCOCO、RefCOCO+和G-Ref等三个关键基准测试中显著优于现有算法,有效地解决了当前参照图像分割算法的局限性。
用全貌分割为基础,GROUNDHOG将多模态大型语言模型连接到实体标记,从而优化了语言到对象的关联,提升了视觉理解和诊断能力。
Feb, 2024
通过对视觉线索进行引导,使用对比区域引导(CRG)方法可以提高视觉-语言模型(VLMs)在多种视觉-语言任务上的性能,减少模型偏见,提高准确性。
Mar, 2024
SynGround是一个结合数据驱动学习和知识传递的新框架,通过模型间的知识传递增强预训练的视觉语言模型的视觉定位能力,并通过合成图像和文本来提高模型性能,最终在多个数据集上展示出提升。
本文介绍了一种名为AttBalance的新框架,通过优化语言相关区域内的视觉特征行为,以提高视觉定位任务的性能,并在四个不同基准测试上对五种不同模型进行了评估和持续改进,进而在QRNet上实现了最新的表现水平。
Jul, 2024
本研究解决了3D视觉定位中现有损失函数未能充分建模实例间空间关系及语言描述粒度结构的问题。提出的细粒度空间损失和语言跨度损失为3D视觉定位提供了新的监督信号,帮助网络学习更具上下文感知的实例和语言嵌入。结果显示,新的方法在ReferIt3D基准测试中展现了竞争力的性能。
Nov, 2024