Jun, 2021

MlTr:基于 Transformer 的多标签分类

TL;DR本文提出了 Multi-label Transformer architecture (MlTr) 并应用于多标签图像分类任务中,利用 windows partitioning、in-window pixel attention、cross-window attention 探索解决 CNN-based 方法遇到的关键问题并取得了性能显著提升。实验结果表明该方法在各种多标签数据集中表现出色,如 MS-COCO、Pascal-VOC 和 NUS-WIDE,分别达到 88.5%、95.8% 和 65.5%。