利用语言描述中的语义角色进行视频对象定位

CVPRMar, 2020

利用语言描述中的语义角色进行视频对象定位

Video Object Grounding using Semantic Roles in Language Description

Arka Sadhu, Kan Chen, Ram Nevatia

TL;DR本文探讨视频对象基础 (VOG)、研究对象关系信息以及提出了一种新的 VOGNet 框架，利用自我关注和相对位置编码来编码多模态对象关系，并通过引入一种新的对比采样方法构建了 ASRL 数据集，并在此基础上进行实验验证。结果表明，将对象关系编码并应用于 VOG 任务可以大大提高模型表现。

Abstract

We explore the task of video object grounding (VOG), which grounds objects in videos referred to in natural language descriptions. Previous methods apply image grounding based algorithms to address VOG, fail to explore the object relation information and suffer from limited generalizat

video object grounding object relation information vognet self-attention activitynet-srl

发现论文，激发创造

视频中的视觉关系定位

本文介绍了一项新任务：视频中的视觉关系定位，目的是在视频中定位给定的主谓宾形式关系，以提供支持其他高级视频语言任务（例如视频语言基础和视频问答）。通过协同优化构建的两个区域序列以及关系关注和重构，我们进一步提出了通过视觉实体之间的空间注意力转移的消息传递机制以解决挑战。我们的模型不仅显着优于基线方法，而且能够产生具有视觉意义的事实以支持视觉基础。

Jul, 2020

基于关系图学习的视频描述生成

本研究设计了一种新颖的关系图学习框架，包括一种语言细化的场景图表示，探索细粒度的视觉概念，并解决了对象幻觉问题。实验结果表明，本方法可以生成更精细和准确的描述。

Dec, 2021

OV-VG：开放词汇视觉定位基准

本研究的关键词是开放式词汇学习、视觉定位、新概念、语言描述和对象检测。通过引入新颖和具有挑战性的任务，即开放式视觉定位与开放式短语定位，这项研究的目标是在语言描述和新对象的定位之间建立联系。我们提出了一种新的框架来加强对新类别的识别，并增强视觉和语言信息之间的对齐。经过广泛的实验验证，我们的提议框架在开放式视觉定位任务上始终达到了最先进的性能。

Oct, 2023

Video-GroundingDINO: 面向开放词汇的时空视频定位

该研究论文介绍了一种开放式语义和语境视频定位模型，通过使用预训练的空间定位模型，克服了固定词汇和有限训练数据的限制，取得了在闭合式和开放式语境下的卓越性能。

Dec, 2023

基于上下文感知的实体定位和开放词汇 3D 场景图

我们介绍了一种开放词汇的 3D 场景图（OVSG），它是一个形式化的框架，用于将各种实体，如物体实例、代理和区域，与自由文本查询进行关联。与传统的基于语义的物体定位方法不同，我们的系统支持上下文感知的实体定位，允许查询，如 ' 在厨房桌子上拿起一个杯子 ' 或' 导航到一个有人坐在上面的沙发 '。与现有的 3D 场景图研究相比，OVSG 支持自由文本输入和开放词汇查询。通过使用 ScanNet 数据集和自采集数据集进行的一系列比较实验证明，我们提出的方法明显超越了以前基于语义的定位技术的性能。此外，我们突出了 OVSG 在真实世界的机器人导航和操作实验中的实际应用。

Sep, 2023

通过视听信息传递将自然图像场景图映射到实体化

该研究提出了一种基于图神经网络的方法，通过联合描述场景中的对象，并利用上下文信息来提高对象定位性能。

Nov, 2022

多形式句子的时空视频定位

本文研究了一种新的任务，即用于多形式句子的时空视频基础问题。提出了一种名为 Spatio-Temporal Graph Reasoning Network 的方法来解决这个问题，利用时空区域图来捕捉视频中物体的相关性。实验结果表明了本方法的有效性。

Jan, 2020

基于损失加权和对象交互的文本弱监督视频对象定位

本文研究弱监督视频对象定位问题，并探讨了在图像域中使用的多实例学习方法在视频域中的扩展性。作者提出了一种将弱监督信号从视频层面传递到帧层面的方法，并将对象之间的交互作为定位的文本指导。在新收集的基准测试 YouCook2-BoundingBox 上，该模型取得了竞争基线方法无法匹敌的表现。

May, 2018

基于实况视频描述

该文介绍了利用视频中物体的 bounding box 将描述影片的句子与影片中的客观证据联系起来，并给出了一个能够利用 bounding box 的词语注释的视频描述模型，其在视频描述、视频段落描述和图像描述上均表现出了最先进的性能和更好的联系性。

Dec, 2018

基于多分支关系网络的物体感知时空视频定位

本文探讨了如何对不对齐的数据和多种形式的句子进行时空视频对齐，通过提出可发现对象之间对象感知关系、对象感知多分支关系网络的方式进行研究，最后得到了一个有效的结果。

Aug, 2020