Nov, 2023

窗口关注存在漏洞:如何不插入位置嵌入

TL;DR在现代计算机视觉转换器时代,窗口注意力、位置嵌入和高分辨率微调是核心概念。然而,我们发现,天真地结合这些几乎无处不在的组件可能会对性能产生不利影响。我们研究了两种具有这三个组件的最先进方法,即 Hiera 和 ViTDet,发现两者都确实遭受了这个错误的困扰。为了解决这个问题,我们引入了一种简单的绝对窗口位置嵌入策略,在 Hiera 中彻底解决了该错误,并允许我们在 ViTDet 中提高模型的速度和性能。最后,我们将两者结合起来得到 HieraDet,在 COCO 上实现了 61.7 的盒子 mAP,成为仅使用 ImageNet-1k 预训练的模型的最先进技术。这一切都源自本质上是一个三行错误修复,我们将其命名为 “绝对获胜”。