Sep, 2023

DAT++:具有可变形注意力的空间动态视觉变换器

TL;DR通过引入一种新的可变形多头注意力模块,Deformable Attention Transformer(DAT)有效地解决了 Transformer 模型中存在的注意力范围过大和过于手工化的问题,从而提高视觉识别任务的性能。实验证明,DAT 在各种视觉识别基准测试中取得了最先进的结果,包括 85.9% 的 ImageNet 准确率,54.5 和 47.0 的 MS-COCO 实例分割 mAP,以及 51.5 的 ADE20K 语义分割 mIoU。