研究使用标准的 3D CNN 模型,提出一个简单的基于分类器的模型解决在线动作提取问题。
Oct, 2018
本研究提出了一种基于视觉 - 文本匹配的多模态学习框架,通过对标签文本的语义信息进行建模,并提出了一种新的 “预训练、提示和微调” 范例,以实现零样本行动识别。实验结果表明,ActionCLIP 模型不仅具有卓越的零样本 / 少样本的迁移能力,而且在 Kinetics-400 数据集上也取得了 83.8% 的高准确度表现。
Sep, 2021
通过对视频帧进行时间聚类,提出了一种全视频行为识别方法,相较于现有的基于帧采样的方法效果更好,同时由于采用了时空局部聚类和快速的哈明距离计算方法使其训练高效。
Mar, 2021
该研究针对在线动作检测问题,提出了一个基于现实数据的真实数据集,并通过分析多种基准方法以及评价协议,展示该问题具有挑战性,为后续在线动作检测研究提供了数据和模型。
Apr, 2016
本论文提出了一种新颖的方法,将视频汇总为由一组全局原型和一组聚焦原型组成的复合原型,并基于原型进行视频相似性比较,进而用于小样本动作识别,实验结果显示该方法在多个基准测试上达到了最先进的成果。
Jul, 2022
该研究提出了一种直接预测动作时间边界的完全端到端的方法,其中模型作为一个基于循环神经网络的智能体与视频交互,并使用 REINFORCE 来学习决策策略,取得了 THUMOS'14 和 ActivityNet 数据集的最先进结果。
Nov, 2015
本文综述了 200 多篇关于视频动作识别的深度学习论文,介绍了 17 个影响模型设计的数据集和深度学习模型的发展历程,包括深度学习适应、双流网络、3D 卷积核和计算效率模型,并对几种方法在典型数据集上进行了基准测试,最后,讨论了视频动作识别面临的问题和未来的研究机会。
Dec, 2020
本研究旨在解决 Tiny Actions Challenge 实际监控场景中人类活动识别的难题,包括距离影响和类别不平衡等方面,提出了一种综合解决方案。该方案主要引入数据平衡、双分辨率蒸馏框架和模型集成等方法,其中模型集成效果显著优于其他算法,取得领先成绩。
Sep, 2022
本文提出了一种新的动作预测方法,该方法基于多阶段 LSTM 网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数,可以在视频序列仅有少量片段的情况下实现高准确度的预测,并在多个公开数据集上超过了先前最优的动作预测方法,相对提升了 22.0%(JHMDB-21),14.0%(UT-Interaction),和 49.9%(UCF-101)的准确率。
Mar, 2017
本文提出了一种原型中心的注意力学习模型(PAL),通过引入原型中心对比学习损失和混合的注意力学习机制,PAL 模型能够有效地提高在少样本情况下的行为识别准确度,具有优异的性能表现。
Jan, 2021