无监督视频集合中的语义行为发现

ICCVMay, 2016

无监督视频集合中的语义行为发现

Unsupervised Semantic Action Discovery from Video Collections

Ozan Sener, Amir Roshan Zamir, Chenxia Wu, Silvio Savarese, Ashutosh Saxena

TL;DR通过视觉和语言提示的联合生成模型，对互联网上海量的指示视频进行语义步骤解析，为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。

Abstract

human communication takes many forms, including speech, text and instructional videos. It typically has an underlying structure, with a starting point, ending, and certain objective steps between them. In this pa

human communication instructional videos semantic parsing unsupervised learning generative models

发现论文，激发创造

视频集合的无监督语义分析

本文提出了一种用视觉和语言线索联合生成模型实现的，可以无监督地将视频解析成语义步骤的方法，该方法可以为视频片段提供语义 “故事情节” 和文字描述，并在大量复杂的 YouTube 视频上进行了评估。

Jun, 2015

使用叙述指令视频进行无监督学习

本文提出一种基于非监督学习的方法，通过集合指导语音和视频，可以自动地学习完成某项任务的主要步骤，例如更换汽车轮胎。通过应用两个聚类问题，同时解决文本和视频中的信息，使它们连接在一起，得出在两种情况下都具有一致性的主要步骤。本文提出的方法可以自动地在输入视频中发现和定位处于任务中的主要步骤。作者还采集和注解了一个包含旨在模拟真实场景的任务的挑战数据集。

Jun, 2015

从说明视频和其叙述中学习过程感知视频表示

研究利用大量网络教学视频和其解说学习视频表示方法，以编码动作步骤及其时间排序，推动步骤分类和预测等领域的发展。通过深度概率模型同时学习视频表示和时间依赖关系，且在 COIN 和 EPIC-Kitchens 等数据集上，具有比同类研究更明显的提升。同时，该研究对于不完整步骤的步骤推测也有良好的表现。

Mar, 2023

从网络教学视频中实现自动学习程序

本文提出了使用长视频分类和描述学习人类共识过程结构的方法，利用 YouCook2 数据集和基于段的递归网络生成过程段。该方法可用于向其他任务提供预处理，如密集视频字幕和事件解析，并在过程分割中优于竞争基线。

Mar, 2017

从文本网络监督中学习视频表征

通过采集 70M 个公开的视频并使用相关的文本描述进行自我监督训练，本文提出了一种基于文本的学习视频表示的方法，证明了这种方法在预训练视频表示中比现有的方法更有效。

Jul, 2020

通过观察和叙述学习动作分割

应用叙述指导下的生成式分段模型，重点研究在无监督和弱监督设置中进行视频动作分割，发现任务结构和叙述语言在训练中被用作监督来源有利于提高分割质量.

May, 2020

基于语言文本的弱监督动作学习

本文提出了一种基于弱监督学习的人类行为学习方法，通过视频的文字形式来推断其中涉及的行为，并能在没有帧级别标注的情况下学习相关的行为模型；该方法在四个活动数据集上进行了评估，证明了其高效性和竞争力。

Oct, 2016

由音频叙述引导的弱监督行为检测

提出了一种基于多模态学习和叙述监督的视频检测模型，可以从嘈杂的音频叙述中学习动作检测，从而降低标注的费用。

May, 2022

连续时间嵌入的无监督动作类别学习

该研究提出了一种基于连续时间嵌入的无监督学习方法，通过鉴别视觉序列中课程的聚类段以实现发现非结构化视频中的动作。该方法被评估在三个数据集上，可以适用于未知情景下的视觉内容分析

Apr, 2019

使用深度语义特征的视频摘要

该论文提出了一种基于深度视频特征和聚类的视频摘要技术，旨在更高效地生成互联网视频的概览，该技术通过设计一种映射视频和描述的深度神经网络来将视频元素转化为语义空间。

Sep, 2016