ECCVFeb, 2022

ActionFormer:使用 Transformers 定位行为片段

TL;DRActionFormer 是一种基于 Transformer 网络的模型,采用了多尺度特征表示和本地自我注意力机制来识别视频中的动作。它在 THUMOS14 上取得了 71.0% mAP,在 ActivityNet 1.3 和 EPIC-Kitchens 100 中也表现出色。