Oct, 2021

具有深度特征正交性和混合 Swin 转换器的高效大规模图像检索

TL;DR我们提出了一种高效的端到端管道,用于大规模地标识别和检索,演示如何结合和增强最近图像检索研究中的概念并介绍两种特别适用于大规模地标识别的架构:深度正交融合的全局和局部特征模型(DOLG)使用 EfficientNet 骨干和一种新的混合 Swin 变换器,讨论了如何使用逐步方法高效地训练两种架构,并提供了一个具有动态边缘的子中心 Arcface 损失,此外还详细阐述了一种新的判别式重新排名方法用于图像检索,我们的方法通过赢得 Google Landmark 竞赛 2021 的识别和检索赛道证明了其卓越性。