从未经筛选的教育视频中的视觉表示端到端学习

CVPRDec, 2019

从未经筛选的教育视频中的视觉表示端到端学习

End-to-End Learning of Visual Representations from Uncurated Instructional Videos

Antoine Miech, Jean-Baptiste Alayrac, Lucas Smaira, Ivan Laptev, Josef Sivic...

TL;DR本文介绍了一种新的学习方法，MIL-NCE, 用于从讲述视频中学习强大的视频表示，并能够在不需要手动注释的情况下进行。该方法通过对齐不对称的讲述视频，有效地学习了视频表示。作者在 HMDB-51、UCF-101、Kinetics-700 等多个数据集上进行了评估，证明了该方法优于已发表的自监督方法和多个全监督基准线的表现。

Abstract

Annotating videos is cumbersome, expensive and not scalable. Yet, many strong video models still rely on manually annotated data. With the recent introduction of the howto100m dataset, →

video models howto100m dataset narrated videos mil-nce self-supervised approaches

发现论文，激发创造

HowTo100M: 通过观看亿万叙述视频剪辑学习文本 - 视频嵌入

本文提出了使用具有自然语言注释的视频数据来学习文本 - 视频嵌入。我们介绍了 HowTo100M 数据集，该数据集包含了源自于 1.22 百万个讲解视频的 1.36 亿段视频剪辑，能够用于不同领域的学习，证明结果表明，该嵌入方式适用于不同的数据集和领域。

Jun, 2019

从说明视频和其叙述中学习过程感知视频表示

研究利用大量网络教学视频和其解说学习视频表示方法，以编码动作步骤及其时间排序，推动步骤分类和预测等领域的发展。通过深度概率模型同时学习视频表示和时间依赖关系，且在 COIN 和 EPIC-Kitchens 等数据集上，具有比同类研究更明显的提升。同时，该研究对于不完整步骤的步骤推测也有良好的表现。

Mar, 2023

使用叙述指令视频进行无监督学习

本文提出一种基于非监督学习的方法，通过集合指导语音和视频，可以自动地学习完成某项任务的主要步骤，例如更换汽车轮胎。通过应用两个聚类问题，同时解决文本和视频中的信息，使它们连接在一起，得出在两种情况下都具有一致性的主要步骤。本文提出的方法可以自动地在输入视频中发现和定位处于任务中的主要步骤。作者还采集和注解了一个包含旨在模拟真实场景的任务的挑战数据集。

Jun, 2015

视频理解作为机器翻译

本文介绍了在大规模多模式视频数据集上的自我监督学习的发展；提出了一种基于生成模型的方法，以翻译问题的形式解决了这一问题，并将其应用于多种下游视频理解任务中。结果表明，本方法在性能上优于基于对比度度量学习的方法。

Jun, 2020

由音频叙述引导的弱监督行为检测

提出了一种基于多模态学习和叙述监督的视频检测模型，可以从嘈杂的音频叙述中学习动作检测，从而降低标注的费用。

May, 2022

从文本网络监督中学习视频表征

通过采集 70M 个公开的视频并使用相关的文本描述进行自我监督训练，本文提出了一种基于文本的学习视频表示的方法，证明了这种方法在预训练视频表示中比现有的方法更有效。

Jul, 2020

为密集视频字幕编写进行多模态预训练

本文介绍了在视频学习中生成元信息的困难性，提出了一种基于时间戳注释的新数据集 Video Timeline Tags（ViTT）以及采用多模态序列预训练策略来预训练和微调密集视频字幕模型，证明了该模型可以很好地泛化和适用于各种各样的教学视频。

Nov, 2020

无监督视频集合中的语义行为发现

通过视觉和语言提示的联合生成模型，对互联网上海量的指示视频进行语义步骤解析，为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。

May, 2016

ACAV100M: 大规模数据集自动筛选方法应用于视听视频表征学习

本文提出了一种基于子集优化的自动数据集精选方法，目标是最大化视频中音频和视觉通道之间的互信息，证明此方法找到具有高音频 - 视觉对应性的视频，并展示我们的数据训练自我监督模型达到了与手动精选数据集相同的结果，最大的好处是可扩展性，我们发布了一个包含一亿个视频的 ACAV100M 数据集，它具有高音频 - 视觉对应性，非常适合用于自我监督学习。

Jan, 2021

无需对齐视频和文本数据的可伸缩精准的自监督多模态表征学习

本文介绍了利用图像字幕预训练高质量视频模型的方法，并证明了以图像字幕代替自动语音识别字幕的预训练方法更有效，使用图像和视频一起进行预训练比单独使用一种模式的预训练能显著提高网络性能，并且这种方法可以与现有的预训练或数据挖掘方法相辅相成。

Apr, 2023