密集变换网络

May, 2017

Dense Transformer Networks

Jun Li, Yongjun Chen, Lei Cai, Ian Davidson, Shuiwang Ji

TL;DR本研究提出了密集变换网络的构建方法，设计了不同于之前需要输入图像分割大小的神经网络结构，通过对使用高分辨率像素预测的自适应分割进行了验证，证明该方法在图像分割任务中取得了更好的表现。

Abstract

The key idea of current deep learning methods for dense prediction is to apply a model on a regular patch centered on each pixel to make pixel-wise predictions. These methods are limited in the sense that the pat

deep learning dense prediction dense transformer networks encoder-decoder architecture image segmentation

发现论文，激发创造

稠密预测的视觉 Transformer

本文提出了稠密视觉 Transformer（dense vision transformers）作为密集预测任务的主干网络，相对于全卷积网络，该结构以恒定和较高的分辨率处理表示，并在每个阶段具有全局感受野。在单眼深度估计和语义分割任务上，我们的实验表明，该结构在有大量训练数据的情况下能够显着提高性能，是一种大有前途的新型神经网络结构。

Mar, 2021

基于 Transformer 的注意力网络用于连续像素智能预测

本文提出的 TransDepth 是一种结合了卷积神经网络和 Transformers 的像素预测模型，使用基于门的注意力机制避免了网络对局部细节的损失，并在三个具有挑战性的数据集上取得了最先进的性能。

Mar, 2021

全分辨率 MLP 加强医学密集预测

本研究针对医学图像恢复、配准和分割等医学视觉任务中的密集预测问题，提出了一种以多层感知器为基础的全分辨率分层框架，通过利用全图像分辨率下的组织级纹理信息，该框架可以在医学图像上实现长程依赖关系，并在多个公共数据集上的广泛实验中展示出超越卷积神经网络和 Transformer 的最先进性能。

Nov, 2023

PolyMaX：基于 Mask Transformer 的通用密集预测

通过泛化基于簇预测的方法，将密集预测任务与掩膜变换器框架统一，我们提出的模型 PolyMaX 在 NYUD-v2 数据集的三个基准测试中展现了最先进的性能。

Nov, 2023

掩蔽变换器应用于扩散模型快速训练

本论文提出了一种使用掩码 Transformer 训练大型扩散模型的高效方法，实现了在不牺牲生成性能的情况下，仅使用 31％的训练时间达到与最先进的扩散变压器模型相同性能的效果。

Jun, 2023

用于图像异常定位的掩蔽变形器

基于 Vision Transformer 架构和 Patch 掩蔽技术的图像异常检测方法，将输入图像分成多个分辨率的 Patch，在忽略异常信息的同时对周围数据进行重建，相较传统方法性能更好，MVTec 和 head CT 等数据集上实现了良好的结果。

Oct, 2022

空间变换网络

引入一种新的可学习模块 ——Spatial Transformer，能够在现有的卷积网络结构中显式地允许对数据进行空间操作，从而使得模型得以学习对于平移、缩放、旋转以及基于更一般的扭曲变换的不变性，其模型表现在多个基准测试数据集上达到了最先进的水平。

Jun, 2015

D-Former: 一种用于 3D 医学图像分割的 U 形扩张 Transformer

本文提出了一种称为 Dilated Transformer 的方法，该方法在全球和局部范围内交替捕捉成对的补丁关系进行自我关注。我们基于 Dilated Transformer 的设计构建了一种名为 D-Former 的 U 型编码器 - 解码器分层结构，用于 3D 医学图像分割。实验表明，我们的 D-Former 模型在低计算成本下，从头开始训练，优于各种有竞争力的基于 CNN 或 Transformer 的分割模型。

Jan, 2022

变形金刚中的变形金刚

本文提出了一种新的 Transformer 结构，即 Transformer iN Transformer（TNT），旨在提高图像处理中变换器的性能，通过在局部感知机制内利用可忽略计算成本的注意力机制以进一步将图像局部细化，从而在 ImageNet 基准测试中实现了 81.5% 的 Top-1 准确率，较相似计算成本的最先进的可视变换器高出 1.7%。

Feb, 2021

DPT: 可变形基于块的 Transformer 用于视觉识别

提出了一种新型的 Deformable Patch（DePatch）模块，可以自适应地将图像分割为具有不同位置和比例的补丁，从而更好地保留了补丁中的语义信息。将该模块加入 Transformer 中，在图像分类和目标检测等任务上进行广泛评估。

Jul, 2021