ECCVSep, 2022

基于序列到序列翻译的融合全程和时间戳监督的暂态行动分割

TL;DR本文提出了一个基于序列到序列解决视频动作分割的统一框架,利用全面时间戳监督设置的 seq2seq 翻译。我们使用 类似于映射视频帧序列到动作分段序列的方法,来解决动作分割这一问题。我们提出了一系列修改和辅助损失函数,以及针对标准 Transformer seq2seq 翻译模型的模块化方法,以应对长输入序列和相对较少的视频输出序列。我们为编码器引入了辅助监督信号,提出了一个独立的对齐解码器用于隐式持续时间预测,最后通过我们提出的有限 k-medoid 算法将框架扩展到基于时间戳的监督设置,用于生成伪分割。我们的框架在完全和时间戳监督设置中表现一致,胜过或与几个数据集上的最先进算法相竞争。