May, 2023

多模态 Transformer 网络用于动作检测

TL;DR本文提出了一种新的多模态转换器网络,用于检测未修剪视频中的动作,利用新的多模态注意机制计算不同空间和动态模态组合之间的相关性,并提出一种算法来纠正相机运动引起的动态变形,该算法在 THUMOS14 和 ActivityNet 两个公共基准测试上优于现有方法,在我们的新教育活动数据集上进行了比较实验,该数据集包括从小学捕捉的大量具有挑战性的课堂视频。