Apr, 2023

视频 Transformer 实现端到端时空动作定位

TL;DR提出一种基于 Transformer、全端到端的模型,该模型直接处理输入视频并输出一系列边界框和每一帧的动作类别,能够使用稀疏边界框基础训练或完整灯管基础训练训练,且无需额外的前处理或后处理即可预测出高质量的结果,并在四个不同的局部性数据集上取得优异的实验成果。