IVAC-P2L: 通过不规则重复先验提升视频动作计数
本研究提出了一种上下文感知、不受时间尺度影响的框架,用于解决复杂重复动作的数量估计问题。通过回归方法和粗到细的循环长度细化方法,该框架能够准确地捕获不同领域的重复模式,此外,还构建了一个新的、最大的基准来促进该领域的训练和评估。
May, 2020
本文介绍了一种将视听融合用于视频中重复活动计数的新方法,通过使用音频信息可以在遇到困难的视觉条件下获得更精确的结果。通过引入音频学习模块和可靠性评估模块的跨模态时间交互进行分析,已经在一个数据集上对该模型进行了学习和评估,并针对具有挑战性的视觉条件引入了数据集变体。实验表明,使用音频以及其他模块可显著提高模型的性能。
Mar, 2021
为解决现有短视频针对长视频中多样化和实际情况不足的问题,本文提出了一种包含多尺度时间关联的transformer编码方法和基于密度图回归的行动周期预测方法,并提供了更细致的注释来解决重复行动计数过程中的不一致现象。该方法不仅在所有数据集上均优于现有方法,而且在未经微调的未见过数据集上也表现更好。
Apr, 2022
通过使用循环数据,本文提出了CycleCL,一种特定设计用于周期性数据的自我监督学习方法。该方法利用预训练特征从同一个阶段近似采样一对帧以及不同阶段的负对帧,并通过优化特征编码器和重新采样三元组的方式来学习具备所提到的期望特性的特征。在工业和多个人类动作数据集上的评估表明,CycleCL在所有任务中显著优于以往的基于视频的自我监督学习方法。
Nov, 2023
视频内的动作周期重复计数是一项旨在量化重复动作周期的任务,本研究提出了一种新方法,利用动作查询表示定位重复的动作周期,并进一步开发了两个关键组件,以解决时间重复计数的基本挑战。
Mar, 2024
视频重复计数是指推断视频中重复动作或运动的次数。我们提出了一种以样本为基础的方法,通过发现目标视频中重复的视频样本之间的视觉对应关系来进行计数。我们的提出的Every Shot Counts(ESCounts)模型是一个基于注意力的编码解码器,它可以对长度不同的视频以及来自相同和不同视频的样本进行编码。在训练过程中,ESCounts通过回归视频中与样本高度对应的位置来学习。同时,我们的方法还学习了一种能够编码普遍重复运动表示的潜在表示,我们可以用于不需要样本的零样本推断。经过对常用数据集(RepCount、Countix和UCFRep)的大量实验,ESCounts在所有三个数据集上都达到了最先进的性能。在RepCount数据集上,ESCounts将误差范围从0.39降低到0.56,并将平均绝对误差从0.38降低到0.21。详细的实验进一步证明了我们方法的有效性。
Mar, 2024
提出了一种名为SkimFocusNet的双分支网络方法,通过粗略浏览与目标动作匹配的全局信息以及精确逐帧识别重复动作来实现行为计数,并在Multi-RepCount数据集上展示了其在多种重复动作无误计数方面的鲁棒性能,取得了最先进的成果。
Jun, 2024
我们提出了一个名为首轮注释重复动作计数(FCA-RAC)的框架,通过标记技术、自适应采样策略、多时序颗粒度卷积(MTGC)模块和训练知识增强(TKA)策略,有效改善了现有数据集的局限性,提高了模型的泛化性能和推广到未知动作的能力。
Jun, 2024
本研究解决了在无剪辑视频中计数多实例重复动作的挑战。提出的MultiCounter框架可同时检测、跟踪和计数多个实例的重复动作,并通过引入新的模块提升了模型效率和准确性。实验结果表明,MultiCounter在MRAC领域设定了新的基准,并显著提高了计数的准确率与实时性能。
Sep, 2024