CVPRMay, 2023

增强 Transformer 主干网络,用于自我中心视频动作分割

TL;DR本研究提出了两种新颖的想法来增强用于行动分割的 transformer,第一,我们引入了双扩张注意机制来自适应地捕获局部到全局和全局到局部上下文中的分层表示。第二,我们在编码器和解码器块之间加入跨连接以防止解码器丢失局部上下文。此外,我们利用最先进的视觉语言表示学习技术为我们的 transformer 提取更丰富,更紧凑的特征。我们的方法在 Georgia Tech Egocentric Activities (GTEA) 和 HOI4D Office Tools 数据集上优于其他最先进的方法,并且我们通过消融实验验证了我们介绍的组件。我们的源代码和补充材料公开可用。