BoxeR：用于 2D 和 3D Transformer 的 Box-Attention

CVPRNov, 2021

BoxeR：用于 2D 和 3D Transformer 的 Box-Attention

BoxeR: Box-Attention for 2D and 3D Transformers

Duy-Kien Nguyen, Jihong Ju, Olaf Booij, Martin R. Oswald, Cees G. M. Snoek

TL;DR本文提出了一种名为 Box-attention 的简单注意机制，通过将感兴趣的格子特征采样自不同盒子进行空间交互，从而改进了变形器在多个视觉任务上的学习能力。具体而言，我们提出了 Box Transformer，通过预测它们从输入特征图上的参考窗口的变换，参照一组盒子。Box Transformer 通过考虑其格子结构对这些盒子进行注意力加权。在 box-attention 模块中学习旋转不变性后，BoxeR-3D 能够从鸟瞰图平面生成具有辨别性的信息以进行端到端的 3D 物体检测。实验结果表明，BoxeR-2D 在 COCO 检测和实例分割上实现了最新的结果。此外，BoxeR-3D 也在端到端的 3D 物体检测领域取得了很好的表现，而无需任何特定类别的优化。

Abstract

In this paper, we propose a simple attention mechanism, we call box-attention. It enables spatial interaction between grid features, as sampled from boxes of interest, and improves the learning capability of transformer

box-attention transformers instance detection segmentation object detection

发现论文，激发创造

BOTT：用于 3D 物体跟踪的仅使用框的 Transformer 跟踪器

通过使用 transformers 从 3D 盒子中直接学习特征，本研究提出了一种名为 Box Only Transformer Tracker (BOTT) 的跟踪器，能够学习链接自不同帧的同一对象的 3D 盒子，以及在两个最大的 3D MOT 基准测试中取得有竞争力的性能。

Aug, 2023

Box-DETR: 理解并且边界化条件空间查询

本文提出了 Box Agent 算法来处理在交叉注意力中预测 bounding box 时的信息不足问题，Box Agent 不仅加速了收敛时间，而且提高了检测性能。

Jul, 2023

利用盒子注意力检测视觉关系

通过引入盒子注意力机制的方式，我们提出了一种新的模型来检测视觉关系，例如 “骑摩托车的人” 或 “桌子上的瓶子”。我们在三个具有挑战性的数据集中进行了实验评估并取得了强大的定量和定性结果。

Jul, 2018

VoxelFormer：基于双视图注意力的鸟瞰特征生成，用于多视角 3D 物体检测

本文研究了基于 Transformer 的目标检测器在多视角三维物体检测领域的局限性，并从鸟瞰图特征生成的角度提出了新的双视角注意力特征生成方法，将其应用于 BEVFormer 架构中，建立了一种新的检测器 VoxelFormer，实验结果表明其性能在 nuScenes 基准测试中显著优于 BEVFormer。

Apr, 2023

DAB-DETR：动态锚框是 DETR 更好的查询方式

本文提出了一种使用动态锚框的新型查询公式，用于 DETR，并对查询在 DETR 中的作用提供了更深入的理解。通过在 Transformer 解码器中直接使用盒子坐标作为查询，动态地逐层更新它们，这种新公式不仅通过使用显式位置先验来提高查询与特征相似度，消除 DETR 中的慢训练收敛问题，而且还允许我们使用盒子宽度和高度信息调制位置注意力映射。

Jan, 2022

四叉树注意力视觉 Transformer

通过部分 Attention 性能的提升，QuadTree Attention 可以有效实现对密集预测的视觉任务，如物体检测和特征匹配，将计算复杂度从二次降至线性，具有比以往转换器更高的性能。

Jan, 2022

P2RBox：定向目标检测所需的唯一点

我们介绍了 P2RBox 网络，它利用点注释和掩膜生成器创建掩膜提案，并通过我们的检查器模块和约束器模块进行过滤，从而选择高质量的掩膜，并将其转换为旋转边界框注释以训练一个全监督检测器。这是第一次尝试使用点监督训练定向物体检测器。

Nov, 2023

STAR-Transformer：面向人类动作识别的时空交叉注意力变压器

提出一种名为 STAR-transformer 的模型，该模型可以有效地表示两个跨模态特征为可识别的矢量，并学习到一种高效的多功能特征表示方法。在动作识别领域中，STAR-transformer 的效果显著优于之前的最先进方法。

Oct, 2022

基于瓶颈结构的 Transformer 用于视觉识别

BoTNet 是一种基于自注意力机制的视觉模型，可以应用于图像分类、目标检测和实例分割，通过在 ResNet 的最后三个 bottleneck 块中使用自注意力代替空间卷积，能够大幅提高实例分割和目标检测的性能，同时减少参数量和计算开销。BoTNet 的设计表明 ResNet bottleneck 块中的自注意力可以视为 Transformer 块。在 COCO Instance Segmentation 基准测试中，BoTNet 能够取得 44.4% 的 Mask AP 和 49.7% 的 Box AP，超过了之前最佳单模型和单尺度结果 ResNeSt，同时在 ImageNet 基准测试中，BoTNet 的简单改进能够取得 84.7% 的 top-1 准确率，比 EfficientNet 在 TPU-v3 上计算速度快 1.64 倍。这一简单而有效的方法有望成为未来自注意力视觉模型研究的强有力基准。

Jan, 2021

ROIFormer：用于高效自监督单目深度估计的语义感知关注区 Transformer

通过基于语义信息的几何启示本文提出了一种高效的本地自适应注意方法来增强几何意识的表示，使得其在 KITTI 数据集上建立了新的最前沿，证明了本方法在自监督单目深度估计任务上的有效性。

Dec, 2022