视频 Transformer 实现端到端时空动作定位
本文提出了一种简单的解决方案 TubeR,用于实现时空视频动作检测,可以有效地增强模型容量,并且直接产生变长动作管道,并在常用的行动检测数据集 AVA、UCF101-24 和 JHMDB51-21 上优于先前的最佳状态。
Apr, 2021
本文通过提出 ACT-detector,结合对象检测中的 anchor boxes 思想,利用视频的时间连续性进行动作检测,结果表明在 J-HMDB 和 UCF-101 数据集上,我们的 ACT-detector 检测方法在帧 - 平均精度 (frame-mAP) 和视频 - 平均精度 (video-mAP) 上都优于基于帧的最新方法,特别是具有高重叠阈值时,精度和定位都得到了显著的提升。
May, 2017
提出了一个新的方法,利用三个阶段的框架实现了视频中多个并发动作的时空本地化(检测)和分类,通过动态规划构建了最有可能与单个动作实例相关联的检测框序列,其表现在 UCF101、J-HMDB-21 和 LIRIS-HARL 数据集上都显著优于现有结果,改进最大检出率(mAP)比之前提高了约 20%和 11%。
Aug, 2016
本研究提出了一个深度学习框架,可实时进行多个时空动作的本地化、分类和早期预测,通过实时的 SSD 卷积神经网络进行回归和分类检测,再通过一个高效的在线算法构建和标记动作管道以进行实时分析,对于 S/T 动作本地化和早期动作预测在 UCF101-24 和 J-HMDB-21 测试基准中均取得了最新的最佳结果,即使与顶级离线竞争对手相比,我们的系统也可以实现 40fps 的在线 S/T 动作本地化和早期动作预测,本文是首个实现此功能的实时系统。
Nov, 2016
提出了基于 Transformer 的 TubeDETR 模型,该模型能够高效地建模时空和多模态交互,用于解决视频中给定文本查询的时空定位问题,并且在视频定位任务上表现出色。
Mar, 2022
本文提出了一种新的基于视频的行动定位框架,使用管道提案网络 (TPN) 生成通用的、独立于类别、视频级别的管状建议,可用于各种视频分析任务,包括行动识别和定位。与其他方法相比,我们的通用管状建议方法准确、通用,并在平滑 L1 损失函数下完全可微。在标准的 UCF-Sports、J-HMDB21 和 UCF-101 数据集上证明了算法的性能。我们的独立于类别的 TPN 优于其他管状建议方法,我们的统一时间深度网络在所有三个数据集上都实现了最先进的定位结果。
May, 2017
本文提出通过静态和运动信息的早期和后期融合检测和跟踪点匹配算法实现视频中时空动作检测,并使用递归 3D 卷积神经网络来预测并确定生成的动作分类和时间边界。通过引入动作足迹图以及 R3DCNN 卷积层中保留的特定空间特征来细化候选框,并在三个公共数据集上获得了优越的检测结果:UCFSports、J-HMDB 和 UCF101。
Nov, 2018
该研究提出了一种基于 tubelet 提案网络和 LSTM 网络的视频对象检测框架,以在视频中高效地生成空间时间提案并融合时间信息以实现高精度的对象检测。
Feb, 2017
本文提出了一种新的端到端训练 Transformer 模型的方法,能够高效地捕捉长期时空依赖性,在零样本学习方面获得了最新进展,通过避免训练和测试类之间的重叠,提出了一个新的实验设置方案,该方法在 UCF-101、HMDB-51 和 ActivityNet 数据集上的 top-1 准确性明显优于现有技术的水平。
Mar, 2022
本文提出了一种利用实体感知和动作感知的转换器,通过文本实体及动作查询逐步地定位视频中的动作定位。实验表明,相比于现有方法,我们的方法在动作定位的精度上具有优势。
May, 2022