通过视频和文本对判别学习时空特征

Jan, 2020

通过视频和文本对判别学习时空特征

Learning Spatiotemporal Features via Video and Text Pair Discrimination

Tianhao Li, Limin Wang

TL;DR本文提出一种基于视觉 - 文本关联的弱监督跨模态 pair 鉴别框架 (CPD)，并将其训练在标准视频和不加筛选的网络视频数据集上，成功在动作识别和零样本动作识别任务上取得了最优性能。

Abstract

Current video representations heavily rely on learning from manually annotated video datasets which are time-consuming and expensive to acquire. We observe videos are naturally accompanied by abundant text information such as YouTube titles and Instagram captions. In this paper, we lev

video representations visual-textual connection cross-modal pair discrimination weakly-supervised learning action recognition

发现论文，激发创造

从文本网络监督中学习视频表征

通过采集 70M 个公开的视频并使用相关的文本描述进行自我监督训练，本文提出了一种基于文本的学习视频表示的方法，证明了这种方法在预训练视频表示中比现有的方法更有效。

Jul, 2020

视频表示学习的自监督时序判别学习

本研究提出一种新的基于视频的自监督学习框架 VTDL，通过增加时间三元组数据的容量来增强时间特征表示的能力，并使用 Temporal Consistent Augmentation（TCA）设计器进行时间信息测量。该方法在动作识别任务中具有显著优势，并且在使用小规模视频数据集进行预训练时，该自监督方法优于完全监督方法。

Aug, 2020

OST: 优化时空描述符提升通用视频识别中的文本知识

通过将大型语言模型应用于视频领域，进行语义空间的优化，从而改善图像 - 语言模型在视频数据上的性能限制，并提高视频识别的准确性。

Nov, 2023

视频动作识别的协作时空特征学习

本文提出了一种新颖的神经操作，通过在三个正交视图上进行 2D 卷积，协同编码了时空特征，并通过权值共享来促进空间和时间特征的学习，此方法在大规模基准测试中取得了最优性能，并通过对不同视图学习的系数进行量化，探讨了空间和时间特征的贡献，以提高模型的解释性并指导视频识别算法的设计。

Mar, 2019

时间感知的视频 - 语言预训练

本研究提出了一种文本 - 视频本地化预文本任务，以实现细粒度的时间和语义对齐，从而让训练模型能够准确感知给定文本描述的视频时间边界，并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。

Jan, 2023

通向可泛化的视频片段检索：通过将视觉动态注入到图像 - 文本预训练中实现

研究探究了大规模图文数据中的多模态相关性，并提出了一种通用方法 Visual-Dynamic Injection（VDI）来增强模型对视频时刻的理解及视觉动态信息的提取，从而更准确地进行视频 - 文本对齐，该方法在现有 VMR 方法的基础上取得了显著的进展。

Feb, 2023

自监督同步下的音频和视频模型协同学习

该研究通过自监督的时间同步学习模型实现音频和视频分析的目的，模型能够在没有微调的情况下有效地识别出时序同步的音频 - 视频配对，并提供了一种非常有效的初始化方式以改善基于视频的动作识别模型的准确性。

Jun, 2018

学习描述一对相似图片之间的差异

本文介绍了一项任务，即自动生成文本来描述两个相似图像之间的差异。我们通过众包获取了一组新的数据集，并提出了一种模型，该模型使用隐变量来根据像素聚类将不同的像素与输出句子对齐，以捕捉视觉显著性并实现语言和视觉的对准。

Aug, 2018

通过大规模的区分性聚类从视频和文本中学习

本文提出了一种在线优化算法，旨在解决具有可扩展性差的判别聚类方法所面临的问题，并将其应用于电影中弱监督学习的问题，从而显著提高了弱监督动作识别的效果。

Jul, 2017

视频文字弱监督对齐

本文提出了一种方法来自动对齐视频和文本，并使用向量特征将其视为时间分配问题，最终得出整数解决方案，这在对齐视频与符号标签方面取得了显着的改进并在具有相关文本说明的挑战性数据集上进行了评估。

May, 2015