多任务学习与多查询变换器用于密集预测
本文介绍了 Mixed-Query Transformer (MQ-Former) 作为一种统一的架构,用于多任务和多数据集图像分割,并使用单套权重进行处理,同时提出了混合查询策略、数据增强和开放式分割任务来进一步改进模型的泛化性能。实验证明 MQ-Former 可以有效地处理多个分割数据集和任务,并相比专门的最先进模型表现出竞争性能,同时在开放词汇 SeginW 基准测试上表现出超过 7 个百分点的性能提升。
Apr, 2024
本文提出了一种新颖的 Decoder-Encoder Attention 用于上下文对齐的神经预测方法,结合位置编码和基于自我注意的解码器方案,旨在改进当前最先进的前沿神经预测方法,并降低 MQ-Forecaster(Wen 等,2017)模型的过多预测变量。
Sep, 2020
本文提出了一种简单而有效的方法来解决多标签分类问题,该方法利用 Transformer 解码器查询类标签的存在,并使用视觉骨干计算的特征图来进行后续的二进制分类,相比于以前的工作,该方法更为简单有效,对于五个多标签分类数据集,包括 MS-COCO,PASCAL VOC,NUS-WIDE 和 Visual Genome,始终优于以前的所有工作,我们在 MS-COCO 上建立了 91.3%的 mAP。
Jul, 2021
我们开发了一种称为 MulT 的端到端多任务学习 Transformer 框架,用于同时学习多个高级视觉任务,包括深度估计、语义分割、重着色、表面法线估计、2D 关键点检测和边缘检测。我们的框架基于 Swin transformer 模型,利用任务特定的基于 Transformer 的解码器头为每个视觉任务进行预测,并采用共享的注意机制模型来建模跨任务的依赖关系。我们在多个多任务基准测试中评估了我们的模型,显示出我们的 MulT 框架优于最先进的多任务卷积神经网络模型和所有各自的单任务 Transformer 模型。我们的实验进一步突出了共享所有任务的注意力的优点,并证明我们的 MulT 模型具有鲁棒性和很好的泛化性能。
May, 2022
我们提出了一种名为 UniT 的统一 Transformer 模型,该模型可以同时学习不同领域中最重要的任务,从目标检测到自然语言理解和多模态推理,在编码器 - 解码器架构的基础上,通过编码器对每个输入模态进行编码,并使用共享解码器对编码的输入表示进行每个任务的预测,然后是特定于任务的输出头。我们的实验证明,在 8 个数据集上联合学习 7 个任务,使用比以前的工作更少的参数,在每个任务上都获得了强大的性能。
Feb, 2021
本文提出了一种基于特征对比一致性的多任务对比正则化方法,以解决多任务密集预测的跨任务交互建模问题,并在两个数据集上进行了大量实验,展示了该方法在密集预测方面的优越表现,创立了新的最先进性能。
Jul, 2023
通过多问多答(MQMA)方法,在编码 - 解码变压器模型中进行文本 - VQA(Visual Question Answering)。通过多次将不同问题和内容输入到模型中进行预测,实现对同一图像的多问题回答预测。提出几个新颖的架构修改来支持 MQMA,并且通过 MQMA 去噪的预训练任务,使模型能够对多个问题以及相关答案进行对齐和划分。在多个文本 - VQA 数据集上,MQMA 预训练模型实现了与先前最先进方法相比的明显改进(OCR-VQA:+2.5%,TextVQA:+1.4%,ST-VQA:+0.6%,DocVQA:+1.1%)。
Nov, 2023
该研究介绍了一种多任务学习架构,通过相关性引导的注意力和自我关注增强平均表示学习,以通过 2D 语义分割和几何相关的任务来综合理解复杂场景,并在室内和室外数据集上展示了其好处。
Jun, 2022
本研究提出了一种利用可变形卷积神经网络和基于查询的 Transformer 相结合的多任务学习模型,名为 DeMT,该模型在进行密集预测方面使用更少的 GFLOPs,并且在多项指标上明显优于当前的基于 Transformer 和 CNN 的竞争模型,扩展性观察证实了该方法的有效性。
Jan, 2023
本研究提出了一种基于多模态 Transformer 架构的新型 TextVQA 模型,采用自我注意力机制进行不同模态的融合,并通过动态指针网络进行迭代式答案解码,相比于现有方法大幅度提高了 TextVQA 任务的性能。
Nov, 2019