自我监督的空间位置辅助指令视频中的叙述理解

Oct, 2021

自我监督的空间位置辅助指令视频中的叙述理解

Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations in Instructional Videos

Reuben Tan, Bryan A. Plummer, Kate Saenko, Hailin Jin, Bryan Russell

TL;DR该文介绍了将叙述交互视频逐帧定位的任务，并通过一个多层交叉模态注意力网络实现自我监督的效果，其中交替计算视觉和自然语言模态的相互关注，以有效地进行训练，其表现超过基线模型包括浅层和全跨模态关注。

Abstract

We introduce the task of spatially localizing narrated interactions in videos. Key to our approach is the ability to learn to spatially localize interactions with →

spatially localizing narrated interactions self-supervision multilayer cross-modal attention network contrastive loss

发现论文，激发创造

无监督视觉 grounding 的学习：通过语义自监督

本文提出了一种新型的无监督视觉基础框架，使用概念学习作为代理任务来获得自我监督，以鼓励模型定位和解释语义属性，在多项实验中，该方法在图像本体库、ReferItGame 数据集上分别提升了 5.6% 和 5.8%，在 Flickr30k 数据集上达到了与最先进的表现相媲美的水平。

Mar, 2018

ReGround: 提升文本和空间定位的无成本方法

通过改变网络架构，将分布式注意力和交叉注意力从串行变为并行，可以显著减少文本和空间对齐之间的权衡。

Mar, 2024

一种简单而有效的视频时间对齐方法，具有交叉模态注意力

本文主要研究了利用语言引导定位视频中的相关片段的问题，提出一种简单直观的跨模态注意力模块 (CMA) 和针对此任务的新回归损失函数来提高定位精度，并在 Charades-STA 和 ActivityNet Captions 数据集上超越了目前最先进的方法。

Sep, 2020

自监督视听表示学习的协同关注网络

本文提出了一种基于自我监督和共注意力机制的框架，通过区分具有关联性的视觉和声音信息，提出了三种不同的共注意力模块以训练神经网络，并通过测试了解了该方法的广泛和可转移性，成功地在先前的任务中取得了最先进的结果，解决了多声源场景的问题。

Aug, 2020

文本短语重建图像基础

通过采用注意力机制来重构给定的短语，本论文提出了一种新的接近无监督学习的方法来学习 grounding，该方法不需要太多的地面实时监督，有效提高了在 Flickr 30k 实体数据集上的表现。

Nov, 2015

面向 TextVQA 的空间感知多模态 Transformer

本研究提出了基于 TextVQA 任务的一种新型空间感知自注意力模型，可以有效地推理图像中的文本内容，改进了 TextVQA 和 ST-VQA 两个关键指标，同时为视觉绑定的研究方向提供了新的思路。

Jul, 2020

无需定位监督学习生成有依据的视觉描述

通过使用循环训练程序来帮助模型在生成句子描述并从本地化的图像 / 视频区域中重建句子以匹配基本事实的过程中，提高了图像标题生成模型的文本本地化能力，而不需要使用本地化监督或在推理过程中引入额外的计算。

Jun, 2019

弱监督空时自然句子在视频中的基础

本文提出了一种新型任务，即利用注意力机制对视频中的自然语句进行弱监督的空时地定位，实现视频中与自然语句语义相符的空时地定位，同时引入多样性损失函数来加强可靠的实例 - 句子配对的匹配行为，并惩罚不可靠的行为，在 ImageNet 视频对象检测数据集上提供了一个新的基准数据集 VID-sentence，并广泛实现了实验结果，表明我们的模型优于基线方法。

Jun, 2019

通过叙述学习将说明文章与视频联系起来

本文提出了一种无需手动监督的方法来将『如何做』视频中的步骤与 wikiHow 等语言知识库中的指导文章进行对齐，并采用多模态对齐进行全局时间定位，验证结果表明与现有方法相比具有明显优势。

Jun, 2023

具有语言结构的短语弱监督视觉定位

文章提出了一种弱监督方法，该方法以图像 - 句子对为输入，学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型，使用两种精心设计的损失函数学习短语的视觉基础，并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。

May, 2017