基于序列到序列翻译的融合全程和时间戳监督的暂态行动分割

ECCVSep, 2022

基于序列到序列翻译的融合全程和时间戳监督的暂态行动分割

Unified Fully and Timestamp Supervised Temporal Action Segmentation via Sequence to Sequence Translation

Nadine Behrmann, S. Alireza Golestaneh, Zico Kolter, Juergen Gall, Mehdi Noroozi

TL;DR本文提出了一个基于序列到序列解决视频动作分割的统一框架，利用全面时间戳监督设置的 seq2seq 翻译。我们使用类似于映射视频帧序列到动作分段序列的方法，来解决动作分割这一问题。我们提出了一系列修改和辅助损失函数，以及针对标准 Transformer seq2seq 翻译模型的模块化方法，以应对长输入序列和相对较少的视频输出序列。我们为编码器引入了辅助监督信号，提出了一个独立的对齐解码器用于隐式持续时间预测，最后通过我们提出的有限 k-medoid 算法将框架扩展到基于时间戳的监督设置，用于生成伪分割。我们的框架在完全和时间戳监督设置中表现一致，胜过或与几个数据集上的最先进算法相竞争。

Abstract

This paper introduces a unified framework for video action segmentation via sequence to sequence (seq2seq) translation in a fully and timestamp

video action segmentation sequence to sequence supervised learning transformer model timestamp

发现论文，激发创造

基于聚类视角的时间戳监督动作分割

本文从聚类的角度提出了一种框架来解决视频动作分割中矛盾间隙带来的错误伪标签问题，并引入了聚类损失函数，使得相同动作段内的帧特征更加紧凑，实验结果表明该方法有效。

Dec, 2022

基于无监督帧到片段对齐的置换感知动作分割

本文提出了一种新颖的基于 Transformer 的框架，用于无监督活动分割，利用帧级别线索和段级别线索。我们的方法通过一个帧级别预测模块开始，该模块通过 Transformer 编码器估计逐帧动作类别。为了利用段级别信息，我们引入了一个段级别预测模块和一个帧到段对齐模块。

May, 2023

基于时间戳监督的动作分割

本文提出了使用时间戳监督来训练时序动作分割模型，并引入置信损失来使模型的学习更加充分，实验结果表明，使用时间戳监督的模型与完全受监督的方法可以达到类似的性能。

Mar, 2021

利用非对齐文本进行弱监督视频表示学习

本文提出了一种基于 transformer，支持弱监督下视频理解的方法，主要包括多粒度损失函数、伪造的帧 - 句对应关系等。在视频序列验证和文本匹配实验中表现良好。

Mar, 2023

SCT: 基于集合限制的时间变换器用于集合监督动作分割

本文提出了一种弱监督学习的端到端方法，将视频分成小的时间段，并预测每个时间段的动作标签及其长度。通过测量时间段与注释动作标签之间的一致性，该方法可学习将视频划分为类一致的区域，并在三个数据集上实现了最先进的结果。

Mar, 2020

时间戳监督下使用图卷积网络进行动作分割

本文介绍了一种使用时间戳监督进行时间活动分割的新方法，其中引入一个图卷积网络，以端到端的方式学习利用帧特征和相邻帧之间的连接生成密集帧标签的方法。我们还提出了一个交替学习的框架，用于初始化和迭代地完善学习模型。在 50Salads、GTEA、Breakfast、Desktop Assembly 等公共数据集上的详细实验表明，我们的方法优于多层感知器基线，同时在时间活动分割方面表现不输于或优于现有技术。

Jun, 2022

时间动作分割的活动语法

通过引入有效的活动语法，本文提出了一种新颖的语法归纳算法，可以从动作序列数据中提取强大的无上下文语法，并开发了一种高效的广义解析器，根据归纳的语法和递归规则将帧级概率分布转化为可靠的动作序列。实验结果表明，我们的方法在两个标准基准评估 Breakfast 和 50 Salads 上在性能和可解释性方面显著提高了时序动作分割。

Dec, 2023

无监督行动分割的 Action Shuffle 交替学习

本文介绍了一种使用自监督学习和 RNN/HMM 算法实现无监督动作分割的方法，该方法优于现有技术在多个数据集上的表现。

Apr, 2021

高时间分辨率行动识别序列建模

本文介绍了一个新数据集 StrokeRehab，旨在解决机器学习中的一个重要问题，即从视频和运动数据中识别出细微的运动，提出了一种以语音识别技术为灵感的基于序列到序列模型的高分辨率动作识别方法，并在 StrokeRehab 数据集以及标准测试数据集 50Salads，Breakfast 和 Jigsaws 上取得了当前最优的结果。

Nov, 2021

从未修剪的视频中单时间戳监督的动作识别

使用单个时间戳代替昂贵的包含行动界限的监督信息，通过不断更新采样分布，进而使其收敛至判别性行动段的位置和范围，从而取得良好的视觉识别效果。

Apr, 2019