ML-Decoder:可扩展和多功能的分类头
本文提出了一种简单而有效的方法来解决多标签分类问题,该方法利用 Transformer 解码器查询类标签的存在,并使用视觉骨干计算的特征图来进行后续的二进制分类,相比于以前的工作,该方法更为简单有效,对于五个多标签分类数据集,包括 MS-COCO,PASCAL VOC,NUS-WIDE 和 Visual Genome,始终优于以前的所有工作,我们在 MS-COCO 上建立了 91.3%的 mAP。
Jul, 2021
我们引入了一种多模态神经机器翻译模型,其中双重注意力解码器自然地整合了使用预先训练的卷积神经网络获取的空间视觉特征,弥合了图像描述和翻译之间的差距。我们的解码器通过两个独立的注意机制在生成目标语言单词时独立地关注源语言单词和图像的部分。我们发现我们的模型不仅可以高效地利用反向翻译的域内 多模态数据,还可以利用大规模的通用领域文本翻译语料库。我们还在 Multi30k 数据集上报告了最先进的结果。
Feb, 2017
本文介绍了一种新的像素预测器:双线性加性上采样,同时比较了各种类型解码器在各种像素级任务中的表现,发现解码器类型对于结果影响很大,并探讨了预测产生的伪影问题。
Jul, 2017
该论文提出了一个新算法 - Aligned Dual moDality ClaSsifier (ADDS),其中包括一个双模式解码器 (DM-decoder) 和视觉和文本特征之间的对齐,用于多标签分类任务,并设计了一种称为金字塔前馈 (Pyramid-Forwarding) 的方法来增强输入的性能,通过在多个基准数据集,如 MS-COCO 和 NUS-WIDE 上进行了广泛的实验,证明了该方法显著优于以前的方法,并为传统的多标签分类,零样本多标签分类,以及单到多标签分类提供了最先进的性能。
Aug, 2022
多标签分类的零样本学习方法,通过引入 CLIP-Decoder 的多模态表示学习,在零样本多标签分类任务中表现出前沿结果,相较于现有方法在性能上提升了 3.9%,在广义零样本多标签分类任务中提升了近 2.3%。
Jun, 2024
本文研究了注意力机制对于自然语言处理和图像识别任务的应用。通过提出一种轻量级的基于 MLP 的多维 MLP 结构,并采用新型的 MLP 注意力工具,我们实现了在小数据集上的从头训练的 SOTA 结果,同时具备出色的解释能力。
May, 2022
本文提出了一种新的多标签分类框架,不依赖于预定义的标签顺序,有效减轻暴露偏差,通过实验结果表明,相较于竞争基线模型,该方法具有很大的优势和更好的泛化能力,可生成更好的未训练标签组合。
Sep, 2019
本文提出了一种检索增强的方法来解决具有 Zipfian 分布标签支持的大标签集情 况下的多标签文本分类问题,并通过交叉关注和检索来改善分类模型的样本效率,实验证明这种方法在标签分布偏斜、低资源训练和长文档数据情境下显著提高了模型性能。
May, 2023
本文提出了 Multi-label Transformer architecture (MlTr) 并应用于多标签图像分类任务中,利用 windows partitioning、in-window pixel attention、cross-window attention 探索解决 CNN-based 方法遇到的关键问题并取得了性能显著提升。实验结果表明该方法在各种多标签数据集中表现出色,如 MS-COCO、Pascal-VOC 和 NUS-WIDE,分别达到 88.5%、95.8% 和 65.5%。
Jun, 2021
本文介绍了一种深度学习模型 DeepLabv3+,将网络的编码器和解码器模块相结合,采用空洞空间金字塔池化和深度可分离卷积技术,用于语义分割任务,实验表明该模型取得 89.0% 和 82.1% 的测试集性能,且附有 TensorFlow 参考实现。
Feb, 2018