利用非对齐文本进行弱监督视频表示学习

CVPRMar, 2023

利用非对齐文本进行弱监督视频表示学习

Weakly Supervised Video Representation Learning with Unaligned Text for Sequential Videos

Sixun Dong, Huazhang Hu, Dongze Lian, Weixin Luo, Yicheng Qian...

TL;DR本文提出了一种基于 transformer，支持弱监督下视频理解的方法，主要包括多粒度损失函数、伪造的帧 - 句对应关系等。在视频序列验证和文本匹配实验中表现良好。

Abstract

sequential video understanding, as an emerging video understanding task, has driven lots of researchers' attention because of its goal-oriented nature. This paper studies weakly supervised sequential video understanding

sequential video understanding weakly supervised learning transformer text-video alignment multiple granularity loss

发现论文，激发创造

视频文字弱监督对齐

本文提出了一种方法来自动对齐视频和文本，并使用向量特征将其视为时间分配问题，最终得出整数解决方案，这在对齐视频与符号标签方面取得了显着的改进并在具有相关文本说明的挑战性数据集上进行了评估。

May, 2015

从文本查询中弱监督的视频片段检索

本文提出了一种学习弱标签的方法来解决文本 - 视频片段检索问题，并使用基于文本引导的注意力机制学习视频中的相关片段，该方法在两个基准数据集上获得了与监督式学习方法相当的性能。

Apr, 2019

视频文本对齐的强基准

通过建立一个简单而强大的基于 Transformer 的模型，本研究考虑了视频和文本在时间上的对齐问题，并通过考虑语音识别误差的减少、选择不同的视觉 - 文本骨干和将嘈杂的 ASR 转录转化成描述性步骤等关键因素，实现了在叙述对齐和步骤对应任务上明显超越现有技术的卓越性能。

Dec, 2023

基于语言文本的弱监督动作学习

本文提出了一种基于弱监督学习的人类行为学习方法，通过视频的文字形式来推断其中涉及的行为，并能在没有帧级别标注的情况下学习相关的行为模型；该方法在四个活动数据集上进行了评估，证明了其高效性和竞争力。

Oct, 2016

从文本网络监督中学习视频表征

通过采集 70M 个公开的视频并使用相关的文本描述进行自我监督训练，本文提出了一种基于文本的学习视频表示的方法，证明了这种方法在预训练视频表示中比现有的方法更有效。

Jul, 2020

TempCLR：具有对比学习的时间对齐表示法

该论文提出了一种对全视频和段落进行显式比较的对比学习框架 TempCLR，通过使用动态时间规整来计算句子 - 剪辑对的最小累积成本作为序列级距离，它可以探索时间动态，并在视频检索、行动步骤定位和少量动作识别等任务中实现了一致的性能提升。

Dec, 2022

时间感知的视频 - 语言预训练

本研究提出了一种文本 - 视频本地化预文本任务，以实现细粒度的时间和语义对齐，从而让训练模型能够准确感知给定文本描述的视频时间边界，并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。

Jan, 2023

无需对齐视频和文本数据的可伸缩精准的自监督多模态表征学习

本文介绍了利用图像字幕预训练高质量视频模型的方法，并证明了以图像字幕代替自动语音识别字幕的预训练方法更有效，使用图像和视频一起进行预训练比单独使用一种模式的预训练能显著提高网络性能，并且这种方法可以与现有的预训练或数据挖掘方法相辅相成。

Apr, 2023

基于序列到序列翻译的融合全程和时间戳监督的暂态行动分割

本文提出了一个基于序列到序列解决视频动作分割的统一框架，利用全面时间戳监督设置的 seq2seq 翻译。我们使用类似于映射视频帧序列到动作分段序列的方法，来解决动作分割这一问题。我们提出了一系列修改和辅助损失函数，以及针对标准 Transformer seq2seq 翻译模型的模块化方法，以应对长输入序列和相对较少的视频输出序列。我们为编码器引入了辅助监督信号，提出了一个独立的对齐解码器用于隐式持续时间预测，最后通过我们提出的有限 k-medoid 算法将框架扩展到基于时间戳的监督设置，用于生成伪分割。我们的框架在完全和时间戳监督设置中表现一致，胜过或与几个数据集上的最先进算法相竞争。

Sep, 2022

更加注重细节：视频中句子的弱监督时间根据地

本文研究了弱监督下的视频句子时间定位问题，提出了一个两阶段模型，通过多尺度滑动窗口形成时间片段的间隔性建议，和在特征空间进行粗细匹配定位，最终在 ActivityNet Captions 数据集和 Charades-STA 数据集上取得良好的表现。

Jan, 2020