Mar, 2022

针对零样本动作识别的端到端语义视频变换器

TL;DR本文提出了一种新的端到端训练 Transformer 模型的方法,能够高效地捕捉长期时空依赖性,在零样本学习方面获得了最新进展,通过避免训练和测试类之间的重叠,提出了一个新的实验设置方案,该方法在 UCF-101、HMDB-51 和 ActivityNet 数据集上的 top-1 准确性明显优于现有技术的水平。