通过观察和叙述学习动作分割

ACLMay, 2020

Learning to Segment Actions from Observation and Narration

Daniel Fried, Jean-Baptiste Alayrac, Phil Blunsom, Chris Dyer, Stephen Clark...

TL;DR应用叙述指导下的生成式分段模型，重点研究在无监督和弱监督设置中进行视频动作分割，发现任务结构和叙述语言在训练中被用作监督来源有利于提高分割质量.

Abstract

We apply a generative segmental model of task structure, guided by narration, to action segmentation in video. We focus on unsupervised and weakly-supervised settings where no action labels are known during train

generative segmental model unsupervised learning weakly-supervised learning task structure narrative language

发现论文，激发创造

从句子中分离演员和动作的视频分割

该研究旨在实现对视频内容中演员和他们的动作进行像素级别的分割。通过自然语言输入句子推断分割，以实现在同一超级类别中对精细的演员进行区分，并识别演员和动作实例，以及分割超出演员和动作词汇的成对内容。提出了一种用于视频像素级别的演员和动作分割的全卷积模型，采用编码器 - 解码器结构进行优化。扩展了两个流行的演员和动作数据集，并添加了超过 7,500 个自然语言描述，展示了基于句子的分割的潜力、我们模型的泛化能力和其与现有技术相比在传统演员和动作分割方面的优势。

Mar, 2018

由音频叙述引导的弱监督行为检测

提出了一种基于多模态学习和叙述监督的视频检测模型，可以从嘈杂的音频叙述中学习动作检测，从而降低标注的费用。

May, 2022

无监督视频集合中的语义行为发现

通过视觉和语言提示的联合生成模型，对互联网上海量的指示视频进行语义步骤解析，为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。

May, 2016

基于语言文本的弱监督动作学习

本文提出了一种基于弱监督学习的人类行为学习方法，通过视频的文字形式来推断其中涉及的行为，并能在没有帧级别标注的情况下学习相关的行为模型；该方法在四个活动数据集上进行了评估，证明了其高效性和竞争力。

Oct, 2016

从视频中无监督学习和分割复杂活动

本文介绍了一种新的无监督视频分割方法，采用迭代鉴别生成方法，通过学习视频视觉特征并建模时序结构，将复杂活动划分为多个子活动，并引入背景模型，验证结果优于现有无监督及弱监督方法。

Mar, 2018

弱监督下无序动作分割的动作集

该研究论文介绍了一种弱监督的行为检测和时间分割方法，利用被动数据采集到的行为集合训练模型，以实现自动的视频行为分割和标注。

Jun, 2017

多视角教学视频的弱监督在线动作分割

本文提出了一种弱监督的在线动作分割框架，采用动态规划方法来在线分割流媒体视频，并通过引入 Online-Offline Discrepancy Loss（OODL）优化分割结果的时间一致性，同时仅在训练期间使用多视角帧级一致性作为弱标注来提高精度及减少标注成本，实验结果在烹饪和组装等两个领域的 Breakfast 和 IKEA ASM 数据集中均得到了验证。

Mar, 2022

连续时间嵌入的无监督动作类别学习

该研究提出了一种基于连续时间嵌入的无监督学习方法，通过鉴别视觉序列中课程的聚类段以实现发现非结构化视频中的动作。该方法被评估在三个数据集上，可以适用于未知情景下的视觉内容分析

Apr, 2019

弱监督时序动作分割的混合 RNN-HMM 方法

提出了一种层次化方法，通过结构化识别来解决从有序动作标签中弱监督学习人类动作的问题，并将一帧 RNN 模型与粗略概率推理相结合，以实现长序列的时间对齐和迭代训练。

Jun, 2019

SFGANS 自监督的人体动作分割未来生成器

通过自我监督方法生成原始特征向量的改进表示，提高了现有模型在行动分割的不同子任务上的性能。

Dec, 2023