多任务学习与多查询变换器用于密集预测

May, 2022

多任务学习与多查询变换器用于密集预测

Multi-Task Learning with Multi-Query Transformer for Dense Prediction

Yangyang Xu, Xiangtai Li, Haobo Yuan, Yibo Yang, Lefei Zhang

TL;DR本文提出了一种名为 “Multi-Query Transformer” 的多任务模型，利用多个任务相关的查询来进行跨任务推理，通过查询在多个任务之间建立联系，使得跨任务交互变得简单高效，并在两个密集预测数据集（NYUD-v2 和 PASCAL-Context）上取得了最优效果。

Abstract

Previous multi-task dense prediction studies developed complex pipelines such as multi-modal distillations in multiple stages or searching for task relational contexts for each task. The core insight beyond these methods is to maximize the mutual effects of each task. Inspired by the r

multi-task learning dense prediction transformers cross-task reasoning state-of-the-art results

发现论文，激发创造

混合查询转换器：统一的图像分割架构

本文介绍了 Mixed-Query Transformer (MQ-Former) 作为一种统一的架构，用于多任务和多数据集图像分割，并使用单套权重进行处理，同时提出了混合查询策略、数据增强和开放式分割任务来进一步改进模型的泛化性能。实验证明 MQ-Former 可以有效地处理多个分割数据集和任务，并相比专门的最先进模型表现出竞争性能，同时在开放词汇 SeginW 基准测试上表现出超过 7 个百分点的性能提升。

Apr, 2024

MQTransformer：基于上下文依赖和反馈感知的多时域预测注意力模型

本文提出了一种新颖的 Decoder-Encoder Attention 用于上下文对齐的神经预测方法，结合位置编码和基于自我注意的解码器方案，旨在改进当前最先进的前沿神经预测方法，并降低 MQ-Forecaster（Wen 等，2017）模型的过多预测变量。

Sep, 2020

Query2Label：一种简单的 Transformer 多标签分类方法

本文提出了一种简单而有效的方法来解决多标签分类问题，该方法利用 Transformer 解码器查询类标签的存在，并使用视觉骨干计算的特征图来进行后续的二进制分类，相比于以前的工作，该方法更为简单有效，对于五个多标签分类数据集，包括 MS-COCO，PASCAL VOC，NUS-WIDE 和 Visual Genome，始终优于以前的所有工作，我们在 MS-COCO 上建立了 91.3％的 mAP。

Jul, 2021

MulT: 一种端到端的多任务学习变压器

我们开发了一种称为 MulT 的端到端多任务学习 Transformer 框架，用于同时学习多个高级视觉任务，包括深度估计、语义分割、重着色、表面法线估计、2D 关键点检测和边缘检测。我们的框架基于 Swin transformer 模型，利用任务特定的基于 Transformer 的解码器头为每个视觉任务进行预测，并采用共享的注意机制模型来建模跨任务的依赖关系。我们在多个多任务基准测试中评估了我们的模型，显示出我们的 MulT 框架优于最先进的多任务卷积神经网络模型和所有各自的单任务 Transformer 模型。我们的实验进一步突出了共享所有任务的注意力的优点，并证明我们的 MulT 模型具有鲁棒性和很好的泛化性能。

May, 2022

UniT：统一变形器进行多模态多任务学习

我们提出了一种名为 UniT 的统一 Transformer 模型，该模型可以同时学习不同领域中最重要的任务，从目标检测到自然语言理解和多模态推理，在编码器 - 解码器架构的基础上，通过编码器对每个输入模态进行编码，并使用共享解码器对编码的输入表示进行每个任务的预测，然后是特定于任务的输出头。我们的实验证明，在 8 个数据集上联合学习 7 个任务，使用比以前的工作更少的参数，在每个任务上都获得了强大的性能。

Feb, 2021

对比多任务密集预测

本文提出了一种基于特征对比一致性的多任务对比正则化方法，以解决多任务密集预测的跨任务交互建模问题，并在两个数据集上进行了大量实验，展示了该方法在密集预测方面的优越表现，创立了新的最先进性能。

Jul, 2023

多问题多答案文本视觉问答

通过多问多答（MQMA）方法，在编码 - 解码变压器模型中进行文本 - VQA（Visual Question Answering）。通过多次将不同问题和内容输入到模型中进行预测，实现对同一图像的多问题回答预测。提出几个新颖的架构修改来支持 MQMA，并且通过 MQMA 去噪的预训练任务，使模型能够对多个问题以及相关答案进行对齐和划分。在多个文本 - VQA 数据集上，MQMA 预训练模型实现了与先前最先进方法相比的明显改进（OCR-VQA：+2.5％，TextVQA：+1.4％，ST-VQA：+0.6％，DocVQA：+1.1％）。

Nov, 2023

密集型多任务学习的跨任务注意机制

该研究介绍了一种多任务学习架构，通过相关性引导的注意力和自我关注增强平均表示学习，以通过 2D 语义分割和几何相关的任务来综合理解复杂场景，并在室内和室外数据集上展示了其好处。

Jun, 2022

DeMT: 变形混合变压器用于密集预测的多任务学习

本研究提出了一种利用可变形卷积神经网络和基于查询的 Transformer 相结合的多任务学习模型，名为 DeMT，该模型在进行密集预测方面使用更少的 GFLOPs，并且在多项指标上明显优于当前的基于 Transformer 和 CNN 的竞争模型，扩展性观察证实了该方法的有效性。

Jan, 2023

使用指针增强多模态 Transformer 进行迭代式答案预测的 TextVQA

本研究提出了一种基于多模态 Transformer 架构的新型 TextVQA 模型，采用自我注意力机制进行不同模态的融合，并通过动态指针网络进行迭代式答案解码，相比于现有方法大幅度提高了 TextVQA 任务的性能。

Nov, 2019