CVPRNov, 2021

BoxeR:用于 2D 和 3D Transformer 的 Box-Attention

TL;DR本文提出了一种名为 Box-attention 的简单注意机制,通过将感兴趣的格子特征采样自不同盒子进行空间交互,从而改进了变形器在多个视觉任务上的学习能力。具体而言,我们提出了 Box Transformer,通过预测它们从输入特征图上的参考窗口的变换,参照一组盒子。Box Transformer 通过考虑其格子结构对这些盒子进行注意力加权。在 box-attention 模块中学习旋转不变性后,BoxeR-3D 能够从鸟瞰图平面生成具有辨别性的信息以进行端到端的 3D 物体检测。实验结果表明,BoxeR-2D 在 COCO 检测和实例分割上实现了最新的结果。此外,BoxeR-3D 也在端到端的 3D 物体检测领域取得了很好的表现,而无需任何特定类别的优化。