时序解析变换器用于动作质量评估
使用计算机视觉进行行动质量评估的研究通过神经网络从视频数据中提取可解释的符号,并应用规则进行质量评估。该研究以潜水为案例研究,发现领域专家更喜欢该系统,并认为它比纯粹的神经网络方法在潜水行动质量评估方面更具信息量。该系统还实现了先进的动作识别和时间分割,并自动生成详细报告,将潜水行动分解为各个元素,并提供带有可视证据的客观评分。通过一组领域专家的验证,该报告可以用于协助评委打分,培训评委,并向潜水员提供反馈。研究人员将公开其所有的标注训练数据和代码以便于可重复性。
Mar, 2024
提出了一种多任务学习方法来改善行动质量评估 (AQA) 的表现,此方法解决了细粒度行动识别、评注生成和评估 AQA 值三个相关任务,结果表明出优于单任务学习方法,获得了目前的最优结果。
Apr, 2019
通过提出一种渐进自适应多模态融合网络(PAMFN),该网络利用视觉信息和音频信息相结合以提高动作质量评估的准确性。研究表明,音频是一种有效的补充信息,尤其对于带有背景音乐的体育项目,如花样滑冰和韵律体操。PAMFN 由三个专注于各自信息的分支和一个逐渐聚合各种信息的混合分支构成,采用了一些创新模块来建立各分支之间的联系。这个研究还引入了自适应融合模块,旨在学习不同动作部分的适应性多模态融合策略。
Jan, 2024
近年来,视频行为质量评估(AQA)受到越来越多的关注。大多数现有方法通常通过考虑整个视频来解决 AQA 问题,却忽视了行为的内在阶段级别特征。为了解决这个问题,我们设计了一种新的多阶段对比回归(MCoRe)框架来处理 AQA 任务。此方法可以有效提取时空信息,同时通过将输入视频分割成多个阶段或过程来降低计算成本。受到图形对比学习的启发,我们提出了一种新的阶段对比学习损失函数来提高性能。结果表明,MCoRe 在广泛采用的精细化 AQA 数据集上展示了迄今为止的最先进结果。
Jan, 2024
连续学习的行动质量评估方法,通过任务一致的得分判别特征分布来减轻遗忘问题,并使用有限内存的特征 - 得分相关觉察重复数据,以及开发行动一般 - 特定图形来学习和解耦行动的知识。
Sep, 2023
FineParser 是一种细粒度的时空动作解析器,通过学习人体为中心的前景动作表示并利用其细粒度的时间和空间对齐,最小化评估过程中无效背景的影响,从而提高行动质量评估的准确性和解释性。
May, 2024
介绍了 NExT-QA,它是一个具有严谨设计的视频问答基准,旨在将视频理解从描述转化为解释时间动作;通过分析基线和现有的视频问答技术,发现表现最好的方法擅长浅层场景描述,但在因果和时间动作推理方面较弱。通过详细结果和启发式观察,希望 NExT-QA 能引导下一代视频问答研究超越表面的场景描述,实现对视频更深入的理解。
May, 2021
本研究通过实验探究在行动质量评估(AQA)环境中是否可能进行知识转移,发现跨多项行动学习单一模型可以提高性能。该实验基于作者发布的 AQA 数据集,在其中进行了 1106 个动作样本的实验,结果表明多项行为的合并样本有助于当前方法的性能提升。
Dec, 2018
本论文针对计算机视觉模型做了一个新的基准,名为 Action Genome Question Answering (AGQA),并提供了 3.9M 个问题答案对的平衡子集,以最小化偏倚。AGQA 引入了多个训练 / 测试集来测试各种推理能力,包括新颖组合的泛化,间接引用以及更多的组合步骤。这项研究发现,最好的模型仅能比利用语言偏见的非视觉基准优秀一些;并且现有的模型都无法推广到训练中未见过的新颖组合。
Mar, 2021