DeMT: 变形混合变压器用于密集预测的多任务学习

AAAIJan, 2023

DeMT: 变形混合变压器用于密集预测的多任务学习

DeMT: Deformable Mixer Transformer for Multi-Task Learning of Dense Prediction

Yangyang Xu, Yibo Yang, Lefei Zhang

TL;DR本研究提出了一种利用可变形卷积神经网络和基于查询的 Transformer 相结合的多任务学习模型，名为 DeMT，该模型在进行密集预测方面使用更少的 GFLOPs，并且在多项指标上明显优于当前的基于 Transformer 和 CNN 的竞争模型，扩展性观察证实了该方法的有效性。

Abstract

convolution neural networks (CNNs) and transformers have their own advantages and both have been widely used for dense prediction in

demt multi-task learning convolution neural networks transformers dense prediction

发现论文，激发创造

具有门控机制的可变形混合变压器用于密集预测的多任务学习

通过结合可变形卷积神经网络（deformable CNN）和基于查询的 Transformer 的优点，并采用共享门控机制，我们提出了一种新颖的多任务学习模型 DeMTG。该模型具有任务特定的强大灵活性，相较于传统的多任务学习方法，其成本更低、复杂度更小、参数更少。实验证明，DeMTG 在三个密集预测数据集上使用更少的 GFLOPs，显著优于基于 Transformer 和 CNN 的竞争模型，且我们的代码和模型可在给出的网址获取。

Aug, 2023

多任务学习与多查询变换器用于密集预测

本文提出了一种名为 “Multi-Query Transformer” 的多任务模型，利用多个任务相关的查询来进行跨任务推理，通过查询在多个任务之间建立联系，使得跨任务交互变得简单高效，并在两个密集预测数据集（NYUD-v2 和 PASCAL-Context）上取得了最优效果。

May, 2022

U-MixFormer：混合注意力的类 UNet Transformer 进行高效语义分割

我们提出了一种新的变换器解码器 U-MixFormer，基于 U-Net 结构设计的，用于高效的语义分割。通过在编码器和解码器阶段之间利用侧连接作为特征查询，我们的方法与以前的变换器方法有所不同。此外，我们创新地混合来自各个编码器和解码器阶段的分层特征图，形成一个统一的键和值表示，从而产生我们独特的混合注意模块。大量实验证明，U-MixFormer 在各种配置上表现出色，并且在 ADE20K 上使用 MSCAN-T 编码器的 mIoU 比 SegFormer 和 FeedFormer 高出 3.3%。

Dec, 2023

CMT: 卷积神经网络与视觉 Transformer 相遇

本文提出了一种基于 Transformer 和 CNN 的新型混合神经网络（CMTs），通过捕捉图像中的长程依赖和建模本地特征，实现了比现有的 DeiT 和 EfficientNet 更高的精度和更小的计算成本。

Jul, 2021

通过运动分解 Transformer 学习可变形图像配准

本文提出一种新颖的运动分解 Transformer (ModeT), 用于像医学图像配准中的非刚性变形估计，出色地超越了当前最先进的配准网络和 Transformer, 并展示了我们的 ModeT 的潜力。

Jun, 2023

使用检测变形器作为数据增广器

本文提出了一种称为 DeMix 的方法，其利用 Detection Transformer 架构设计的图像对象检测模型 DETR 作为数据扩展器。通过精心选取语义信息丰富的图像区域，DeMix 显著地优于先前的数据增强方法 CutMix 的实验结果。

Apr, 2023

EEG-Deformer：一种用于脑机接口的密集卷积变形器

通过将 Hierarchical Coarse-to-Fine Transformer (HCT) 和 Dense Information Purification (DIP) 模块结合进 CNN-Transformer，我们提出了 EEG-Deformer 算法，有效地学习了脑电图（EEG）信号中的时间动态，进而解码脑活动，实验证明它在三个认知任务上要么优于现有的最先进方法，要么与其相媲美。

Apr, 2024

MB-TaylorFormer：基于 Taylor 公式扩展的多分支高效 Transformer 用于图像去雾

近年来，Transformer 网络开始取代纯卷积神经网络在计算机视觉领域的应用，但是其二次计算复杂度的 softmax-attention 限制了高分辨率图像去雾任务的广泛应用。因此，我们提出了一种新的 Transformer 变体，应用泰勒展开逼近 softmax-attention，实现了线性计算复杂度，并引入了多尺度注意力细化模块和多分支架构以及多尺度补丁嵌入方法进一步改进 Transformer 的性能。我们的模型名为 MB-TaylorFormer，在补丁嵌入阶段可以更灵活地嵌入粗糙到细粒度的特征，并以有限的计算成本捕捉远距离像素之间的相互作用。实验证明，MB-TaylorFormer 在多个去雾基准上取得了最先进的性能，并具有轻量级的计算负担。源代码和预训练模型可在此 https URL 获得。

Aug, 2023

3D Shuffle-Mixer: 一种用于医疗体积稠密预测的 Transformer-MLP 范式的高效上下文感知视觉学习器

研究提出了一种新的 3D Shuffle-Mixer 网络，它采用本地视觉变换器 - MLP 范例，可以更有效地应用于医学成像中的密集预测，获得比其他先进的密集预测方法更好的性能。

Apr, 2022

Deformable DETR：可变形 Transformer 完整目标检测

Deformable DETR 提出了一种改进的 Transformer 注意力模块，只关注于围绕参考点的一小集采样点，能够更好地实现物体检测，尤其是在小物体上，并在 COCO 基准测试上得到了有效的实验结果。

Oct, 2020