在自然环境中学习对齐序列操作
我们提出了一种弱监督的框架,用于视频中的动作标注,其中只在训练时间需要发生动作的顺序。通过引入扩展的连接组态分类(ECTC)框架来解决每帧对齐的问题,从而有效地评估所有可能的对齐。我们进一步将我们的框架扩展到在视频中稀疏地注释了一些帧的半监督情况下。使用不到1%的标记帧数的情况下,我们的方法能够胜过现有的半监督方法,并实现与完全监督方法相当的性能。
Jul, 2016
本文提出了一种名为 D3TW 的新模型,通过创新性的弱监督序列排序方式,在视频中实现了弱监督行为对齐和分割,并在数据集上进行了测试。
Jan, 2019
本文提出了一种基于自我监督学习的视频时序对齐表征学习方法,其通过训练神经网络使用时间循环一致损失(TCC)来找到多个视频之间在时间上的对应关系,从而得到每一帧的表征,可用于快速地对视频进行对齐和分类。该方法在少量监督数据和其他自监督方法上都有较好的表现,同时还可用于多种视频应用领域的数据同步和异常检测。
Apr, 2019
本文讨论了跨视频提取视觉对应关系的任务,提出了一种使用交叉视频循环一致性来学习空间和时间对应关系的新方法,成功实现了语义相似的贴片在视频中的对应,并学习到对物体和动作状态敏感的表示。
Jul, 2020
本研究提出了一种自监督学习方法,利用时间视频对齐作为前提任务,同时利用帧级别和视频级别信息,通过时间对齐损失和时间正则化项的结合来训练编码器网络,通过在不同数据集上的广泛评估验证其在视频表示学习方面的出色性能。
Mar, 2021
本文提出了一种针对同一过程(如人类动作)的时间序列(例如视频)的弱监督表征学习方法,通过对全局时间序列进行对齐,并利用对齐的隐变量跨序列对的全局时间顺序作为监督信号进行表征学习,通过最优序列对齐进行嵌入网络的训练。通过大量实验表明,该方法在动作分类、少样本学习和视频同步等任务中均比之前的方法性能有了明显提高。
May, 2021
本文提出了一个基于 Two-stage Action Alignment Network (TA2N) 的方法,通过学习时间仿射变换来定位动作并解决时空分布不一致的问题,从而在几个样本的情况下识别新的动作类别,并在基准数据集上实现了最先进的表现。
Jul, 2021
本文提出了一种时间对齐网络,能够对长期视频序列和关联文本句子进行处理,使用了一种新颖的共同训练方法来减少噪音并训练原始指导视频,应用于多个视频理解任务,包括文本-视频检索和弱监督视频动作分割等,获得了更好的性能。
Apr, 2022
该研究解决了视频分析中对稳健帧级嵌入的需求,提出了一种自监督的表示学习方法,侧重于时间视频序列的对齐。通过引入局部对齐对比损失(LAC),结合了可微局部对齐损失和对比损失,显著提升了模型在动作识别任务中的表现,展现了新的对齐方法的潜力。
Sep, 2024