InvPT++：倒立金字塔多任务变压器用于视觉场景理解

Jun, 2023

InvPT++：倒立金字塔多任务变压器用于视觉场景理解

InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene Understanding

Hanrong Ye, Dan Xu

TL;DR提出了一个可以在全局情境下建立不同任务的空间特征之间交互的倒金字塔多任务转换器，以及两种跨尺度自注意模块，以有效地促进跨任务交互。

Abstract

Multi-task scene understanding aims to design models that can simultaneously predict several scene understanding tasks with one versatile model. Previous studies typically process multi-task features in a more lo

multi-task learning scene understanding transformer cross-task interaction global context

发现论文，激发创造

InvPT: 倒金字塔多任务 Transformer 用于密集场景理解

本文提出了一种新型的端到端的倒金字塔多任务变形器（InvPT），用于在统一框架中同时建模空间位置和多个任务，以进行密集预测，该方法可显著提高 NYUD-v2 和 PASCAL-Context 数据集上的多任务表现，并显著优于以前的最新技术。

Mar, 2022

特征金字塔变换器

提出了一种名为 Feature Pyramid Transformer（FPT）的全新特征交互方法，能够将任何特征金字塔转换为具有更多上下文信息的相同大小的特征金字塔，从而有效捕捉不同尺度中物体的非局部上下文特征。在实例级和像素级分割任务中，使用不同的骨干网络和头部网络进行了广泛实验，并观察到相对于所有基线和现有最先进方法均有持续的提高。

Jul, 2020

多任务学习与多查询变换器用于密集预测

本文提出了一种名为 “Multi-Query Transformer” 的多任务模型，利用多个任务相关的查询来进行跨任务推理，通过查询在多个任务之间建立联系，使得跨任务交互变得简单高效，并在两个密集预测数据集（NYUD-v2 和 PASCAL-Context）上取得了最优效果。

May, 2022

用于精确生物医学图像分割的多化合物转换器

本研究提出了一种统一的变形器网络，称为多化合物变形器（MCTrans），可嵌入 UNet-like 网络中，并在生物医学图像分割中显着提高了最先进方法的性能。它使用自我关注和交叉注意力进行多尺度卷积特征的序列嵌入，引入了可学习的代理嵌入来模拟语义关系和特征增强。

Jun, 2021

基于金字塔结构的高效统一 Transformer 语义分割模型

本文提出了一种统一的框架（UN-EPT）来解决复杂场景中的语义分割问题，该框架综合考虑了上下文信息和边界伪影。该模型采用了稀疏采样策略来提高上下文建模的效率，并引入了单独的空间分支来捕捉图像细节，整个模型可以端到端地训练。该方法在三个常用的语义分割数据集上表现出优秀的性能，并具有较低的内存占用。

Jul, 2021

预训练的 Transformer 金字塔网络

本研究提出了一种基于屏蔽图像建模的完整预训练框架，统一复现与识别阶段，并通过深入的技术贡献，在图片分类、物体检测和语义分割方面实现了新的最佳结果。

Nov, 2022

视频问答的时域金字塔变换器和多模态交互

本文提出了一种基于时域金字塔变换器的多模交互模型，用于视频问答，实现了问题语义的建立和视频信息的推断，并在三个视频问答数据集上通过了广泛的实验证明了该方法相较于现有技术的卓越表现。

Sep, 2021

金字塔融合变压器用于语义分割

本研究提出了一种基于 Transformer 的 Feature Pyramid Fusion Transformer (PFT) 方法，结合学习到的查询和 Feature Pyramid 中的每个空间特征进行交叉注意力和交叉尺度的互补信息交换，提高了面向掩码的语义分割性能，并在三个广泛使用的语义分割数据集上达到了与现有最佳方法相比的最先进的性能。

Jan, 2022

基于 Transformer 的多层注意力聚合地点识别

本文介绍了一种新颖的基于 Transformer 的全局位置识别模型 TransVPR，该模型在多尺度上聚合任务相关特征，并通过空间匹配实现对全局视觉特征的候选人重新排序，具有最先进的性能并且计算时间和存储要求相对较低。

Jan, 2022

想象力提高多模翻译

本文研究了多模式翻译任务的两个子任务：学习翻译和学习视觉有关表征，并在多任务学习框架中通过注意力编码器 - 解码器和图像表征预测的方式实现。通过实验发现，这种方法在 Multi30K 数据集上比基准表现要好，即使在外部 MS COCO 数据集进行训练也同样有效，而在外部 News Commentary 平行文本训练翻译模型时进一步提高了性能。

May, 2017