MulT: 一种端到端的多任务学习变压器

CVPRMay, 2022

MulT: 一种端到端的多任务学习变压器

MulT: An End-to-End Multitask Learning Transformer

Deblina Bhattacharjee, Tong Zhang, Sabine Süsstrunk, Mathieu Salzmann

TL;DR我们开发了一种称为 MulT 的端到端多任务学习 Transformer 框架，用于同时学习多个高级视觉任务，包括深度估计、语义分割、重着色、表面法线估计、2D 关键点检测和边缘检测。我们的框架基于 Swin transformer 模型，利用任务特定的基于 Transformer 的解码器头为每个视觉任务进行预测，并采用共享的注意机制模型来建模跨任务的依赖关系。我们在多个多任务基准测试中评估了我们的模型，显示出我们的 MulT 框架优于最先进的多任务卷积神经网络模型和所有各自的单任务 Transformer 模型。我们的实验进一步突出了共享所有任务的注意力的优点，并证明我们的 MulT 模型具有鲁棒性和很好的泛化性能。

Abstract

We propose an end-to-end multitask learning transformer framework, named MulT, to simultaneously learn multiple high-level vision tasks, including depth estimation, semantic segmentation, reshading, surface norma

multitask learning transformer vision tasks shared attention mechanism swine transformer model multitask benchmarks

发现论文，激发创造

UniT：统一变形器进行多模态多任务学习

我们提出了一种名为 UniT 的统一 Transformer 模型，该模型可以同时学习不同领域中最重要的任务，从目标检测到自然语言理解和多模态推理，在编码器 - 解码器架构的基础上，通过编码器对每个输入模态进行编码，并使用共享解码器对编码的输入表示进行每个任务的预测，然后是特定于任务的输出头。我们的实验证明，在 8 个数据集上联合学习 7 个任务，使用比以前的工作更少的参数，在每个任务上都获得了强大的性能。

Feb, 2021

端到端注意力多任务学习

本文提出了一种新的多任务学习架构，其中包含了任务特定的特征级别的注意力学习，称之为 Multi-Task Attention Network (MTAN)，它可以在任何前馈神经网络的基础上进行端到端训练，本文在图像分类任务和图像到图像预测上进行了验证，发现相对于现有方法，该架构达到了最先进的水平，而且对多任务损失函数的各种加权方案也不敏感。

Mar, 2018

多任务学习与多查询变换器用于密集预测

本文提出了一种名为 “Multi-Query Transformer” 的多任务模型，利用多个任务相关的查询来进行跨任务推理，通过查询在多个任务之间建立联系，使得跨任务交互变得简单高效，并在两个密集预测数据集（NYUD-v2 和 PASCAL-Context）上取得了最优效果。

May, 2022

SwinFace: 一种用于人脸识别、表情识别、年龄估计和属性估计的多任务 Transformer

该研究提出了一种基于单一的 Swin Transformer 的多功能算法，用于同时进行人脸识别、面部表情识别、年龄估计和面部属性估计，并通过多层级通道注意力模块适应性地选择最佳级别和通道上的特征，以提高预测准确性、数据效率和训练速度。

Aug, 2023

元转换器：多模态学习的统一框架

通过使用冻结的编码器以及共享的令牌空间，Meta-Transformer 提出了一个框架，可以在 12 种不同的模态间进行统一学习，并处理多种任务，展现了转换器在发展统一多模态智能方面的潜力。

Jul, 2023

自然语言理解的多任务深度神经网络

本文介绍了一种用于跨多个自然语言理解任务的表示学习的多任务深度神经网络（MT-DNN），其延伸了 Liu 等人（2015）所提出的模型，并包含一个预先训练的双向变形器语言模型（BERT）。MT-DNN 在 10 个 NLU 任务中实现了新的最先进结果，并提高了 GLUE 基准至 82.7％（2.2％的绝对改进），其代表着领先水平。同时，我们还展示了 MT-DNN 所学习到的表征，可以用较少的数据实现领域适应，比预先训练的 BERT 表征更加优秀。

Jan, 2019

神经语音翻译的绑定多任务学习

本文探讨了用于神经语音翻译的多任务模型，并对其进行增强，以反映两个直观概念。精准的中间表示和神经关联的模式，参与模型的训练可以提高低资源语音转录和翻译任务的性能。

Feb, 2018

多模态任务的动态 Transformer 架构

我们提出了一种基于 Transformer 的持续学习框架 TAM-CL，用于学习涉及视觉和语言的多模态任务，并通过引入额外参数和知识蒸馏实现任务间的信息交流，以及解决灾难性遗忘问题。该方法在多种挑战性的多模态任务上达到了最先进的性能。

Jan, 2024

多模态不对齐语言序列的多模态转换器

该研究介绍了一种称为 MulT 的多模态转换器，利用方向性一对一跨模态注意力在不显式对齐数据的情况下，通用地解决了模型多模态人类语言时序数据中的两个主要挑战，即内在数据非对准性和跨模态元素之间的长程依赖关系。

Jun, 2019

VUT: 面向多模态多任务用户界面建模的通用 UI Transformer

本研究提出了一种 VUT 多任务模型，可以同时完成 UI 镜像和结构编码、UI 对象检测、问题回答和命令接地等 5 个不同的任务。实验结果表明，VUT 在减少多任务模型数量和占用空间的同时，准确度也不逊于单独训练的基准模型。

Dec, 2021