CVPRMar, 2022

基于协同注意力的情境识别 Transformer

TL;DR本文提出了一种用于情境识别的新方法,称为 Collaborative Glance-Gaze TransFormer,该方法结合了活动分类和实体估计的互动和互补作用,使用 Glance transformer 和 Gaze transformer 两个模块来实现,其中,Glance transformer 利用 Gaze transformer 来帮助预测主要活动,而 Gaze transformer 在预测了 Glance transformer 预测的活动的前提下,只关注于与该活动相关的实体来估计实体坐标,并在 SWiG 数据集上实现了最新的性能。