基于 Transformer 模型的多标签图像分类

Nov, 2020

基于 Transformer 模型的多标签图像分类

General Multi-label Image Classification with Transformers

Jack Lanchantin, Tianlu Wang, Vicente Ordonez, Yanjun Qi

TL;DR本文提出的 C-Tran 是用于多标签图像分类的通用框架，旨在利用 Transformers 来利用视觉特征和标签之间的复杂依赖关系。该方法包括经过训练的 Transformer 编码器，用于预测给定带有蒙版标签的输入集的目标标签集，以及来自卷积神经网络的视觉特征。我们的模型在 COCO 和 Visual Genome 等具有挑战性的数据集上显示出最先进的性能。

Abstract

multi-label image classification is the task of predicting a set of labels corresponding to objects, attributes or other entities present in an image. In this work we propose the classification transformer (C-Tra

multi-label image classification classification transformer transformers visual features label mask training

发现论文，激发创造

MlTr：基于 Transformer 的多标签分类

本文提出了 Multi-label Transformer architecture (MlTr) 并应用于多标签图像分类任务中，利用 windows partitioning、in-window pixel attention、cross-window attention 探索解决 CNN-based 方法遇到的关键问题并取得了性能显著提升。实验结果表明该方法在各种多标签数据集中表现出色，如 MS-COCO、Pascal-VOC 和 NUS-WIDE，分别达到 88.5%、95.8% 和 65.5%。

Jun, 2021

Query2Label：一种简单的 Transformer 多标签分类方法

本文提出了一种简单而有效的方法来解决多标签分类问题，该方法利用 Transformer 解码器查询类标签的存在，并使用视觉骨干计算的特征图来进行后续的二进制分类，相比于以前的工作，该方法更为简单有效，对于五个多标签分类数据集，包括 MS-COCO，PASCAL VOC，NUS-WIDE 和 Visual Genome，始终优于以前的所有工作，我们在 MS-COCO 上建立了 91.3％的 mAP。

Jul, 2021

实时多标签天气识别的 MASK-CNN-Transformer

本研究提出了一种新颖的基于 MASK - 卷积神经网络 - Transformer 模型的多标签气象识别模型，该模型采用了 MASK 机制来提高模型的泛化能力，实验结果表明该模型在各种天气识别数据集上均表现出比现有最先进方法更好的性能，并且具有高速动态实时天气识别能力。

Apr, 2023

训练视觉 Transformer 进行图像检索

本文提出一种基于变换器的图像检索方法，通过采用视觉变换器生成图像描述符并使用度量学习目标进行训练，结合对比损失和微分熵正则化，相比于卷积方法，提高了图像检索性能，特别是对于短向量表示和低分辨率图像。

Feb, 2021

图像分类任务中视觉 Transformer 的全面研究

综述了关于视觉变换器用于图像分类的现有研究，包括图像分类数据集，视觉变换器模型的发展历程和未来研究机会。

Dec, 2023

用于图像和文本分类的监督多模式双向转换器

该研究介绍了一种监督式多模态双向 Transformer 模型，该模型融合了文本编码器和图像编码器的信息，并在各种多模态分类基准任务上获得了最先进的性能。

Sep, 2019

TransMed: 基于 Transformers 的多模态医学图像分类

该研究提出了一种结合了 CNN 和 transformer 的方法 ——TransMed，在多模态医学图像分类中取得了很好的性能，这一方法为医学图像分析任务开启了更多可能性。

Mar, 2021

一个简单的解释型 Transformer 用于细粒度图像分类与分析

我们提出了一种新颖的 Transformer 的用法，使图像分类具有解释性。通过在编码器 - 解码器中使用 Transformer 进行类别定位，我们的方法 INTR 使得每个类别都能够在图像中找到自己的模式，并展示了对预测的准确解释。通过多头交叉关注机制，INTR 能够识别类别的不同属性，从而在细粒度分类和分析方面具有良好的适应性。

Nov, 2023

基于标签引导的遮蔽图像和类别感知变形器的不完整多视图多标签学习

本文提出了一种基于 transformer 的多视图多标签学习框架，以解决多视图数据和多标签注释于模式识别中的应用。该框架通过设计两个基于 transformer 的模块对特征进行聚合和分类，并提出一种自适应视图融合模块解决视图表达的不平衡性，同时将标签约束到样本级表示学习中。五个数据集上的实验证实了该方法的有效性。

Mar, 2023

基于图卷积网络的多标签图像识别

提出了一种基于图卷积网络的多标签分类模型，通过建立对象标签之间的图，学习一个对相互依赖的物体分类器的表示，同时使用重新加权的方法来创建有效的标签相关矩阵以指导 GCN 中节点之间的信息传播，在两个多标签图像识别数据集上实验证明了方法的有效性，并且可视化分析表明该模型学习到的分类器保持有意义的语义拓扑结构。

Apr, 2019