重新思考重复动作计数的时间自相似性
本文提出了一种基于自我监督学习的视频时序对齐表征学习方法,其通过训练神经网络使用时间循环一致损失(TCC)来找到多个视频之间在时间上的对应关系,从而得到每一帧的表征,可用于快速地对视频进行对齐和分类。该方法在少量监督数据和其他自监督方法上都有较好的表现,同时还可用于多种视频应用领域的数据同步和异常检测。
Apr, 2019
本研究提出了一种上下文感知、不受时间尺度影响的框架,用于解决复杂重复动作的数量估计问题。通过回归方法和粗到细的循环长度细化方法,该框架能够准确地捕获不同领域的重复模式,此外,还构建了一个新的、最大的基准来促进该领域的训练和评估。
May, 2020
本文介绍了一种利用时间自相似性作为中间表征的方法,通过一定的限制来预测视频中重复动作的周期,结果表明,该模型在现有周期性和重复计数基准测试任务上显著超越现有技术,并在新的数据集 Countix 上显示了鲁棒性。
Jun, 2020
为解决现有短视频针对长视频中多样化和实际情况不足的问题,本文提出了一种包含多尺度时间关联的transformer编码方法和基于密度图回归的行动周期预测方法,并提供了更细致的注释来解决重复行动计数过程中的不一致现象。该方法不仅在所有数据集上均优于现有方法,而且在未经微调的未见过数据集上也表现更好。
Apr, 2022
本文提出结合离线特征提取和时间卷积网络从全面的时间分辨率角度理解重复动作,设计了不需要下采样即可保留所有重复内容的重复计数网络,并利用动态扩展的时间感受野框架来检索所有重复内容,实验证明该方法优于或可与其他方法相媲美。
May, 2023
视频内的动作周期重复计数是一项旨在量化重复动作周期的任务,本研究提出了一种新方法,利用动作查询表示定位重复的动作周期,并进一步开发了两个关键组件,以解决时间重复计数的基本挑战。
Mar, 2024
视频重复计数是指推断视频中重复动作或运动的次数。我们提出了一种以样本为基础的方法,通过发现目标视频中重复的视频样本之间的视觉对应关系来进行计数。我们的提出的Every Shot Counts(ESCounts)模型是一个基于注意力的编码解码器,它可以对长度不同的视频以及来自相同和不同视频的样本进行编码。在训练过程中,ESCounts通过回归视频中与样本高度对应的位置来学习。同时,我们的方法还学习了一种能够编码普遍重复运动表示的潜在表示,我们可以用于不需要样本的零样本推断。经过对常用数据集(RepCount、Countix和UCFRep)的大量实验,ESCounts在所有三个数据集上都达到了最先进的性能。在RepCount数据集上,ESCounts将误差范围从0.39降低到0.56,并将平均绝对误差从0.38降低到0.21。详细的实验进一步证明了我们方法的有效性。
Mar, 2024
提出了一种名为SkimFocusNet的双分支网络方法,通过粗略浏览与目标动作匹配的全局信息以及精确逐帧识别重复动作来实现行为计数,并在Multi-RepCount数据集上展示了其在多种重复动作无误计数方面的鲁棒性能,取得了最先进的成果。
Jun, 2024
我们提出了一个名为首轮注释重复动作计数(FCA-RAC)的框架,通过标记技术、自适应采样策略、多时序颗粒度卷积(MTGC)模块和训练知识增强(TKA)策略,有效改善了现有数据集的局限性,提高了模型的泛化性能和推广到未知动作的能力。
Jun, 2024
本研究解决了在无剪辑视频中计数多实例重复动作的挑战。提出的MultiCounter框架可同时检测、跟踪和计数多个实例的重复动作,并通过引入新的模块提升了模型效率和准确性。实验结果表明,MultiCounter在MRAC领域设定了新的基准,并显著提高了计数的准确率与实时性能。
Sep, 2024