May, 2023

针对视频的弱监督时间动作定位的查询 - 键注意力建模

TL;DR本文提出了一种名为 VQK-Net 的网络,它采用了视频特异性的查询 - 键(query-key)注意力建模,通过学习每个输入视频每个动作类别的唯一查询来检测目标视频中的相应动作并定位,从而实现弱监督的时间动作定位,并在 THUMOS14,ActivityNet1.2 和 ActivityNet1.3 三个数据集上获得了最先进的性能结果。