一种用于密集多标签动作检测的有效高效方法
我们提出了 PAT,一种基于 Transformer 的网络,通过利用多尺度时间特征来学习视频中复杂的时间共现动作依赖关系。
Aug, 2023
本文介绍了一种新颖的时空变换网络,其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联,使用运动感知网络编码视频帧中的动作位置,并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系,该方法在四个时空动作数据集上优于最先进的解决方案:AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。
May, 2024
本文提出了一种基于注意力机制的体系结构来模拟在未修剪视频的时间动作本地化任务中动作类之间的关系,并通过 Co - 发生依赖分支和时间依赖依赖分支来建模合作和临时依赖性,提出了新颖的度量标准以考虑动作类之间的依赖性,并在 MultiTHUMOS 和 Charades 数据集上展示了比现有方法更好的 f-mAP 性能。
Mar, 2021
该研究通过使用多标签分析行为识别问题,并在已有数据集 THUMOS 的基础上拓展了新数据集 MultiTHUMOS,提出了一种采用 LSTM 深度网络来建模多个密集标签时序关系的新算法,从而提高动作标注精度,同时也使得结构化检索和动作预测等更深入的理解任务得以实现。
Jul, 2015
我们提出了一种基于 ConvTransformer 网络的行动检测方法,通过三个组件(时间编码器、时间尺度混合器和分类器)高效地捕捉视频中的短期和长期时间信息,实验表明该方法在 Charades、TSU 和 MultiTHUMOS 数据集上效果显著优于现有方法。
Dec, 2021
该研究旨在通过将视频动作识别和 2D 人体姿势估计网络结合为一个模型,改善时间定位和分类准确性表现。最终,通过从不同的摄像头视角获取信息并消除误报,该模型在 2023 年 NVIDIA AI 城市挑战的自然驾驶行为识别中表现出色,实现了优化的区域覆盖得分 0.5079。
Mar, 2024
本文提出了一种新的多模态转换器网络,用于检测未修剪视频中的动作,利用新的多模态注意机制计算不同空间和动态模态组合之间的相关性,并提出一种算法来纠正相机运动引起的动态变形,该算法在 THUMOS14 和 ActivityNet 两个公共基准测试上优于现有方法,在我们的新教育活动数据集上进行了比较实验,该数据集包括从小学捕捉的大量具有挑战性的课堂视频。
May, 2023
提出了一种基于磁盘聚类的统一框架,它可以处理和结合不同类型的较低需求的弱监督,从视频中监测时空活动,并将其应用于训练设置中的不同类型的监督信号实验结果证明:该模型在 UC101-24 和 DALY 数据集上具有竞争性能,而且与之前的方法相比,使用的监督信号更少。
Jun, 2018
为解决现有短视频针对长视频中多样化和实际情况不足的问题,本文提出了一种包含多尺度时间关联的 transformer 编码方法和基于密度图回归的行动周期预测方法,并提供了更细致的注释来解决重复行动计数过程中的不一致现象。该方法不仅在所有数据集上均优于现有方法,而且在未经微调的未见过数据集上也表现更好。
Apr, 2022