视频参照表达理解中的基于内容条件查询的 Transformer

MMOct, 2023

视频参照表达理解中的基于内容条件查询的 Transformer

Video Referring Expression Comprehension via Transformer with Content-conditioned Query

Ji Jiang, Meng Cao, Tengtao Song, Long Chen, Yi Wang...

TL;DR使用动态查询和跨模态对齐，基于 Transformer 方法的 ConFormer 模型在视频参考表达理解中表现出色，实现了对目标对象的定位。

Abstract

video referring expression comprehension (REC) aims to localize a target object in videos based on the queried natural language. Recent improvements in video REC have been made using transformer-based methods wit

video referring expression comprehension transformer-based methods dynamic queries cross-modal alignment conformer

发现论文，激发创造

视频指称理解中的对话问题

研究视频指代表达理解中的两个问题，提出了一种新颖的双重对应网络方法来增强帧间和跨模态的密集关联，以提高视频和图像 REC 基准测试的表现，并进行了全面的剖析研究。

Jul, 2022

指代表达理解：方法与数据集综述

本文调查了现代方法解决自然语言与计算机视觉领域中的指代表达理解问题，包括用于编码视觉和文本模态的机制，结构化图表示的模块化架构和基于图形的模型，以及针对小型数据集的结果，提出了复合指称表述理解方向的潜在未来研究方向。

Jul, 2020

CK-Transformer：基于常识知识的 Transformer 模型用于指代表达理解

本研究提出了一种基于常识知识增强的 Transformer 框架 (CK-Transformer) 用于图像中多模态指称表述的理解，实验结果表明 CK-Transformer 在 KB-Ref 任务上实现了一项新的最优表现，相比现有技术提高了 3.14% 的准确性。

Feb, 2023

引用变压器：一种多任务视觉基础的一步方法

本次研究提出了一个基于 transformer 架构的单阶段多任务模型，通过融合视觉和语言输入，实现了高度语义转换的视觉语言解析，通过上下文信息和多任务学习，该模型在包括命名实体识别等任务上，取得了比现有方法更加突出的性能优势。

Jun, 2021

利用语言适应性推理进行指代表达理解

本文提出了一种名为语言自适应动态子网（LADS）的框架，可以从 REC 模型中提取依赖于表达式的语言自适应子网。通过使用紧凑的子网，推理可以更加经济高效，实验证明该方法可以在 RefCOCO、RefCOCO +、RefCOCOg 和 Referit 上提高推理速度和准确率。

Jun, 2023

统一参照表达生成和理解

我们提出了一种统一的 REG 和 REC 模型 UniRef，它使用经过精心设计的图像 - 区域 - 文本融合层 (IRTF) 来融合图像、区域和文本，并提出了视觉条件的掩码语言建模 (VMLM) 和文本条件的区域预测 (TRP) 对 UniRef 模型进行预训练以更好地完成这两个高度相关的任务。

Oct, 2022

文本条件下的长篇视频理解的重新采样器

使用文本条件的视频重采样器（TCR）模块和预训练的视觉编码器和大型语言模型（LLM），我们设计了一种基于 Transformer 的采样架构，可以处理长视频序列，并通过交叉注意机制，将相关的视觉特征从视频中提取出来，并通过 LLM 生成文本响应。我们的方法在各种评估任务中表现出很好的效果，并在 NextQA、EgoSchema 和 EGO4D-LTA 挑战赛中创造了最新的最好成绩，我们还发现了需要较长视频上下文的任务，可以有效地用于进一步评估长程视频模型。

Dec, 2023

ScanFormer: 迭代扫描式指代表达理解

该研究论文提出了一种名为 ScanFormer 的粗粒度到细粒度迭代感知框架，通过利用图像尺度金字塔从上到下提取与语言相关的视觉路径，排除与语言无关的冗余视觉区域以提高模型的效率，并在相关数据集上验证了该方法的准确性和效率的平衡。

Jun, 2024

基于网格 - 词交叉注意力的无提案单阶段指代表达

本研究提出了一个基于交叉注意力变换器的无提案一阶段模型（PFOS），用于根据文本查询从图像中回归感兴趣区域，避免了之前方法所遇到的时间成本和超参数困境，并在四个参考表达数据集上取得了比以往方法更高效的最佳表现。

May, 2021

使用语言查询进行视频对象分割

该论文提出了一种基于 Transformer 的简单统一框架 ReferFormer，用于视频对象分割的跨模态任务。该方法将语言视为查询，直接关注视频帧中与查询最相关的区域，并将所有查询都强制找到所需对象，最终将它们转换为捕获关键的对象级信息的动态卷积核，用于从特征映射中生成分割掩码，因此可以极大地简化管道并显著区别于先前的方法。

Jan, 2022