Sep, 2022

Transformer 和 CNN 都在 SBIR 上击败了人类

TL;DR本文介绍了以往三元组 SBIR 方案存在的问题,提出了建立具有更好翻转等变性的 SBIR 解决方案的多种方法,并深入评估了每种方法的有效性,揭示了视觉 Transformer 对于 SBIR 任务更加适用,性能比卷积神经网络高得多,引入了第一个在大规模 SBIR 基准(Sketchy)上超越人类表现的模型,具体表现为召回率 62.25%,比以前的最先进方法 46.2%高。