Jun, 2021

使用 Transformer 进行端到端时序动作检测

TL;DR本研究提出了一种基于 Transformer 的时态动作检测方法,通过少量学习嵌入(称为动作查询)从视频中自适应地提取时间上下文信息,并直接预测动作实例的时间间隔和语义标签,通过三种改进提高本地化意识,实现了端到端的学习,并取得了与现有方法相比的卓越性能。