SCT: 基于集合限制的时间变换器用于集合监督动作分割

CVPRMar, 2020

SCT: 基于集合限制的时间变换器用于集合监督动作分割

SCT: Set Constrained Temporal Transformer for Set Supervised Action Segmentation

Mohsen Fayyaz, Juergen Gall

TL;DR本文提出了一种弱监督学习的端到端方法，将视频分成小的时间段，并预测每个时间段的动作标签及其长度。通过测量时间段与注释动作标签之间的一致性，该方法可学习将视频划分为类一致的区域，并在三个数据集上实现了最先进的结果。

Abstract

temporal action segmentation is a topic of increasing interest, however, annotating each frame in a video is cumbersome and costly. Weakly supervised approaches therefore aim at learning temporal action segmentation

temporal action segmentation weakly supervised learning end-to-end approach video analysis frame-wise prediction

发现论文，激发创造

弱监督下无序动作分割的动作集

该研究论文介绍了一种弱监督的行为检测和时间分割方法，利用被动数据采集到的行为集合训练模型，以实现自动的视频行为分割和标注。

Jun, 2017

基于集合约束的 Viterbi 算法进行基于集合监督的动作分割

该论文介绍了一种新的基于 HMM 的弱监督行为分割框架，其中提出了一种新的 Viterbi 算法和特征 affinities 的正则化方法来提高算法性能。

Feb, 2020

基于时间戳监督的动作分割

本文提出了使用时间戳监督来训练时序动作分割模型，并引入置信损失来使模型的学习更加充分，实验结果表明，使用时间戳监督的模型与完全受监督的方法可以达到类似的性能。

Mar, 2021

弱监督动作标注的连接时序建模

我们提出了一种弱监督的框架，用于视频中的动作标注，其中只在训练时间需要发生动作的顺序。通过引入扩展的连接组态分类（ECTC）框架来解决每帧对齐的问题，从而有效地评估所有可能的对齐。我们进一步将我们的框架扩展到在视频中稀疏地注释了一些帧的半监督情况下。使用不到 1％的标记帧数的情况下，我们的方法能够胜过现有的半监督方法，并实现与完全监督方法相当的性能。

Jul, 2016

基于序列到序列翻译的融合全程和时间戳监督的暂态行动分割

本文提出了一个基于序列到序列解决视频动作分割的统一框架，利用全面时间戳监督设置的 seq2seq 翻译。我们使用类似于映射视频帧序列到动作分段序列的方法，来解决动作分割这一问题。我们提出了一系列修改和辅助损失函数，以及针对标准 Transformer seq2seq 翻译模型的模块化方法，以应对长输入序列和相对较少的视频输出序列。我们为编码器引入了辅助监督信号，提出了一个独立的对齐解码器用于隐式持续时间预测，最后通过我们提出的有限 k-medoid 算法将框架扩展到基于时间戳的监督设置，用于生成伪分割。我们的框架在完全和时间戳监督设置中表现一致，胜过或与几个数据集上的最先进算法相竞争。

Sep, 2022

迭代对比分类半监督时序动作分割

本论文提出一种基于卷积网络和聚类的半监督学习方法，提高了时间动作分割的性能，其中包括无监督表示学习、带时间接近度限制和多分辨率相似性的特征聚类、以及迭代对比分类等方法。

Dec, 2021

弱监督时序动作分割的混合 RNN-HMM 方法

提出了一种层次化方法，通过结构化识别来解决从有序动作标签中弱监督学习人类动作的问题，并将一帧 RNN 模型与粗略概率推理相结合，以实现长序列的时间对齐和迭代训练。

Jun, 2019

稀疏时域池化网络弱监督动作定位

该篇论文提出了一种利用卷积神经网络进行弱监督时间动作定位的算法，其通过学习视频级别的类标签来预测人类动作的时间区间，利用注意力模块鉴别与目标动作有关的重要片段，并通过自适应时间池化融合这些关键片段，同时在损失函数中考虑视频级别的动作分类误差和这些关键片段的稀疏性，利用类别激活和类别无关的注意力在推断时提取和评分时间建议，以估计与目标动作对应的时间区间，在 THUMOS14 数据集上取得了最先进的结果，并具有卓越的 ActivityNet1.3 性能。

Dec, 2017

在有序约束条件下的视频弱监督动作标记

本文介绍了一种基于弱监督时序标注的视频动作分类方法，将视频分为多个时间间隔并为每个时间间隔分配一个动作标签，以实现动作时序的定位，并学习每个动作的鉴别器。通过新的数据集对该方法进行了测试。

Jul, 2014

使用深度度量学习进行弱监督时序动作定位

本文介绍了一种弱监督的时间动作定位方法，该方法只需要视频级别的动作实例作为训练数据，在视频的每个片段中生成行为标签，并学习不同动作实例之间的相似性，实验表明该方法在两个视频数据集上取得了有竞争力的结果。

Jan, 2020