自然语言规约下的联合视觉定位及跟踪
通过自然语言规范(TNL)追踪是在视频序列中根据初始帧的语言描述来稳定地定位目标的方法。本文提出了一种联合多模态追踪框架,通过提示调制模块和统一目标解码模块实现了时间视觉模板和语言表达之间的补充性,并直接在搜索图像上执行整合的查询,以一步预测目标位置。对 TNL2K、OTB-Lang、LaSOT 和 RefCOCOg 进行了大量实验证明了我们所提出方法的有效性,在追踪和地面连接方面与现有方法具有竞争性能。
Mar, 2024
本研究提出了一种基于 transformer 的视觉定位框架,通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位,并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。
Apr, 2022
该研究提出一种利用自然语言描述的深度追踪器,通过使用 LSTM 跟踪器预测目标的更新,可以以每秒超过 30 帧的速度处理具有模糊语言注释的目标,展示出色的性能。
Jul, 2019
本文提出了一种新的基于自然语言描述的目标跟踪方法,通过建立一个自然语言驱动的跟踪器的基准测试数据集,并提出了两个新的挑战来促进相关研究,旨在提高跟踪性能的灵活性、鲁棒性和准确性。
Mar, 2021
单目标跟踪 UVLTrack 是一个统一的跟踪器,可同时处理边界框(BBOX)、自然语言(NL)和两者(NL+BBOX)的参考设置,并具有多种优势,包括模态一致的特征提取器、多模态对比性损失和模态自适应盒子头。在多个数据集上 extensive 实验结果显示,UVLTrack 在视觉跟踪、视觉语言跟踪和视觉定位方面具有有前景的性能。
Jan, 2024
本文提出了一种基于自然语言监督的跨模态领域泛化方法,利用视觉和文本交互的表征来实现高级别类别判别的信息融合,并使用可解释的模型来生成解释,从而提高模型的泛化能力和性能。作者的方法在多个数据集上均取得了最新领先的结果。
Jul, 2022
该研究提出了一种简单、灵活且有效的视觉 - 语言(VL)跟踪管道,称为 MMTrack,它将 VL 跟踪视为一个标记生成任务,并通过将语言描述和边界框序列化为一系列离散标记来实现。通过避免多个子任务的学习和手动设计的损失函数,该设计范式极大地降低了 VL 跟踪建模的复杂性,并允许跟踪器使用简单的交叉熵损失作为统一的优化目标。在 TNL2K、LaSOT、LaSOT_ext 和 OTB99-Lang 基准测试上的广泛实验表明,与其他最先进的方法相比,我们的方法取得了令人满意的结果。
Aug, 2023
我们介绍了一种新颖的多模式机器翻译模型,利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义,并实现共享的视觉 - 语言嵌入和翻译器的联合优化,取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上,我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。
Aug, 2018
通过引入自然语言表示来提高多目标跟踪模型的域泛化能力,本文提出了两个模块(视觉上下文提示和视觉 - 语言混合),用于生成本征于不同跟踪场景的实例级伪文字描述,并通过在 MOT17 上训练和在 MOT20 上验证,观察到该方法显著提高了基于查询的跟踪器的泛化性能。
Dec, 2022
本文提出了一种新型的无监督视觉基础框架,使用概念学习作为代理任务来获得自我监督,以鼓励模型定位和解释语义属性,在多项实验中,该方法在图像本体库、ReferItGame 数据集上分别提升了 5.6% 和 5.8%,在 Flickr30k 数据集上达到了与最先进的表现相媲美的水平。
Mar, 2018