Nov, 2020

基于 Transformer 模型的多标签图像分类

TL;DR本文提出的 C-Tran 是用于多标签图像分类的通用框架,旨在利用 Transformers 来利用视觉特征和标签之间的复杂依赖关系。该方法包括经过训练的 Transformer 编码器,用于预测给定带有蒙版标签的输入集的目标标签集,以及来自卷积神经网络的视觉特征。我们的模型在 COCO 和 Visual Genome 等具有挑战性的数据集上显示出最先进的性能。