MMAD:视频中的多标签微动作检测
本文提出了一种基于人体关节点的动作识别的新层次模型,可以对视频中的复杂动作进行分类,并对组成复杂动作的原子动作进行时空注释。该模型具有自动发现主动体部的功能,联合学习动作提取和视觉可变性的灵活表示,以及去除空闲或无信息体部的机制等三个关键新颖性,在多个动作识别基准测试中表现优异。
Jun, 2016
介绍了 Multi-Moments in Time dataset,它包含了超过一百万个三秒视频的超过两百万个动作标签,为多动作检测训练和分析模型引入了新的挑战。对于长尾多标签学习,提出了适合的损失函数,并提供了更好的模型可视化和解释方法,表明将 M-MiT 训练的模型迁移到更小的数据集具有很强的鲁棒性。
Nov, 2019
本文介绍使用多个数据集共同训练机器学习模型来检测人脸情绪,并探讨数据注释和缺失标签对模型训练的影响。最终提出了一种在缺失标签下正确训练的算法,并且相比于其他情绪识别比赛有着不错的表现。
Aug, 2020
BABEL是一个大型数据集,包含43小时的MOCAP序列,从AMAAS中提供了关于动作的语言标签,该数据集可用于行动识别、时间行动定位、运动合成等任务,并可作为3D行动识别的有用基准测试,数据集、基准方法和评估代码可供学术研究使用。
Jun, 2021
本研究提出了一种基于视觉-文本匹配的多模态学习框架,通过对标签文本的语义信息进行建模,并提出了一种新的“预训练、提示和微调”范例,以实现零样本行动识别。实验结果表明,ActionCLIP 模型不仅具有卓越的零样本 / 少样本的迁移能力,而且在 Kinetics-400 数据集上也取得了 83.8% 的高准确度表现。
Sep, 2021
本文提出一种弱监督的方法来检测细粒度视频动作,通过自我监督聚类获取可重复和自动发现的原子动作集合, 并结合语义标签层次将原子动作映射到细粒度和粗粒度行动标签,最终构建了四个层次的视频可视化表示层次,在两个大型数据集上实验表明该方法在细粒度动作检测方面取得了最优性能。
Jul, 2022
本文介绍了BBSI的方法和结果,BBSI是对连续社交互动中复杂身体行为的第一个注释集,其包含了15个不同的身体语言类别,并采用四个空间-时间特征变体作为PDAN的输入来自动检测这些行为,结果表明这是一个困难的任务,但有很大改进的空间。
Jul, 2022
自动人类行为共现识别任务介绍,通过视觉和文本信息,利用ACE数据集和图链接预测模型自动推断两个动作是否同时发生,在不同数据领域中学习图表示,并捕捉到不同的关联信息。
Sep, 2023
该研究提出了一个用于微动作识别的基准测试集Micro-action-52(MA-52)和微动作网络(MANet),通过收集全面的微动作线索来解决微动作的识别和理解问题,并展示了该方法在情感识别方面的应用价值。
Mar, 2024
本研究关注一类特殊的人体语言,即微小手势(MG),针对微小手势的动作识别和情感理解进行了研究,提出了多种增强策略和时空平衡融合方法,并通过实验证明了这些方法在微小手势识别和情感理解中的有效性。
May, 2024