视频指称理解中的对话问题

MMJul, 2022

Correspondence Matters for Video Referring Expression Comprehension

Meng Cao, Ji Jiang, Long Chen, Yuexian Zou

TL;DR研究视频指代表达理解中的两个问题，提出了一种新颖的双重对应网络方法来增强帧间和跨模态的密集关联，以提高视频和图像 REC 基准测试的表现，并进行了全面的剖析研究。

Abstract

We investigate the problem of video referring expression comprehension (REC), which aims to localize the referent objects described in the sentence to visual regions in the video frames. Despite the recent progress, existing methods suffer from two problems: 1) inconsistent localizatio

video referring expression comprehension dual correspondence network inter-frame correlations cross-modal contrastive learning state-of-the-art performance

发现论文，激发创造

视频参照表达理解中的基于内容条件查询的 Transformer

使用动态查询和跨模态对齐，基于 Transformer 方法的 ConFormer 模型在视频参考表达理解中表现出色，实现了对目标对象的定位。

Oct, 2023

指代表达理解：方法与数据集综述

本文调查了现代方法解决自然语言与计算机视觉领域中的指代表达理解问题，包括用于编码视觉和文本模态的机制，结构化图表示的模块化架构和基于图形的模型，以及针对小型数据集的结果，提出了复合指称表述理解方向的潜在未来研究方向。

Jul, 2020

动态上下文对应网络（DCN）用于语义对齐

该论文提出了一种名为 DCCNet 的动态上下文对应网络，通过引入注意力机制，整合了多种语义线索，对计算机视觉中语义对应问题进行了改进，并在多个数据集上验证了该方法的有效性。

Sep, 2019

像语言一样表达物体：用于图像 - 文本匹配的循环视觉嵌入

文章提出了一种针对图像 - 文本匹配问题的解决方法，利用一种双通路递归神经网络（DP-RNN）处理对称的输入，通过提取对象顺序信息、对象关系、同时引入自注意力和跨模态联合注意力实现了图片和文本的相似度匹配，实验验证提出的方法在 Flickr30K 数据集上达到了最先进的性能表现，MS-COCO 数据集也表现具有竞争力。

Feb, 2020

利用语言适应性推理进行指代表达理解

本文提出了一种名为语言自适应动态子网（LADS）的框架，可以从 REC 模型中提取依赖于表达式的语言自适应子网。通过使用紧凑的子网，推理可以更加经济高效，实验证明该方法可以在 RefCOCO、RefCOCO +、RefCOCOg 和 Referit 上提高推理速度和准确率。

Jun, 2023

双模块记忆的持续指代理解

本文提出了 Continual Referring Expression Comprehension (CREC) 新的设置，通过 Dual Modular Memorization (DMM) 方法，不断改进模型在连续任务上的性能，避免遗忘之前学到的知识并减少重复重新训练的需求。作者在三个常用 REC 数据集上构建了新的 CREC 基准，并通过大量实验证明 DMM 方法显著优于其他方法。

Nov, 2023

对比学习视频语料库瞬间检索

本文提出了一个可用于视频语料库时刻检索的检索和定位网络，采用对比学习优化视频编码器和文本编码器，从而实现视频轮廓时序信息检索。该方法效率高且具有可比性。

May, 2021

一种用于指代表达理解的实时跨模态相关性滤波方法

本论文提出了一种新的 Realtime Cross-modality Correlation Filtering 方法 (RCCF)，将指称表达理解重新表述为一种相关滤波过程，使得物体的定位更准确，在 RefClef、RefCOCO、RefCOCO + 和 RefCOCOg 基准测试中取得领先的性能，通过 RCCF 方法，我们的模型可以在 40 FPS 的速度下实现了超过之前最好结果的性能。

Sep, 2019

组合对象关系和属性进行图像 - 文本匹配

本研究中，我们通过引入场景图表示图像标题，利用图注意力网络构建了一个双编码器的图像 - 文本匹配模型，能高效地编码物体 - 属性和物体 - 物体的语义关系，通过提供对图神经网络的强关系归纳偏置进行学习。我们的模型在两个重要的图像 - 文本检索基准数据集 Flickr30K 和 MSCOCO 上进行实验，证明了相对于计算成本高的交叉注意方法，CORA 在召回得分上具有优势，同时实现了双编码器的快速计算速度。

Jun, 2024

基于语义注意力的视频指称理解中的共同基础网络

本文探讨了视频中指代表达理解的问题，并提出了一种新的视角，即协同基础，通过语义关注学习提高单帧基础的准确性，并通过协同基础的特征学习提高跨帧基础的一致性。实验结果表明，该框架在视频基础数据集 VID 和 LiOTB 上生成了准确且稳定的结果，并且在 RefCOCO 数据集上的表现也得到了改善。

Mar, 2021