密集变换网络
本文提出了稠密视觉 Transformer(dense vision transformers)作为密集预测任务的主干网络,相对于全卷积网络,该结构以恒定和较高的分辨率处理表示,并在每个阶段具有全局感受野。在单眼深度估计和语义分割任务上,我们的实验表明,该结构在有大量训练数据的情况下能够显着提高性能,是一种大有前途的新型神经网络结构。
Mar, 2021
本文提出的 TransDepth 是一种结合了卷积神经网络和 Transformers 的像素预测模型,使用基于门的注意力机制避免了网络对局部细节的损失,并在三个具有挑战性的数据集上取得了最先进的性能。
Mar, 2021
本研究针对医学图像恢复、配准和分割等医学视觉任务中的密集预测问题,提出了一种以多层感知器为基础的全分辨率分层框架,通过利用全图像分辨率下的组织级纹理信息,该框架可以在医学图像上实现长程依赖关系,并在多个公共数据集上的广泛实验中展示出超越卷积神经网络和 Transformer 的最先进性能。
Nov, 2023
通过泛化基于簇预测的方法,将密集预测任务与掩膜变换器框架统一,我们提出的模型 PolyMaX 在 NYUD-v2 数据集的三个基准测试中展现了最先进的性能。
Nov, 2023
本论文提出了一种使用掩码 Transformer 训练大型扩散模型的高效方法,实现了在不牺牲生成性能的情况下,仅使用 31%的训练时间达到与最先进的扩散变压器模型相同性能的效果。
Jun, 2023
基于 Vision Transformer 架构和 Patch 掩蔽技术的图像异常检测方法,将输入图像分成多个分辨率的 Patch,在忽略异常信息的同时对周围数据进行重建,相较传统方法性能更好,MVTec 和 head CT 等数据集上实现了良好的结果。
Oct, 2022
引入一种新的可学习模块 ——Spatial Transformer,能够在现有的卷积网络结构中显式地允许对数据进行空间操作,从而使得模型得以学习对于平移、缩放、旋转以及基于更一般的扭曲变换的不变性,其模型表现在多个基准测试数据集上达到了最先进的水平。
Jun, 2015
本文提出了一种称为 Dilated Transformer 的方法,该方法在全球和局部范围内交替捕捉成对的补丁关系进行自我关注。我们基于 Dilated Transformer 的设计构建了一种名为 D-Former 的 U 型编码器 - 解码器分层结构,用于 3D 医学图像分割。实验表明,我们的 D-Former 模型在低计算成本下,从头开始训练,优于各种有竞争力的基于 CNN 或 Transformer 的分割模型。
Jan, 2022
本文提出了一种新的 Transformer 结构,即 Transformer iN Transformer(TNT),旨在提高图像处理中变换器的性能,通过在局部感知机制内利用可忽略计算成本的注意力机制以进一步将图像局部细化,从而在 ImageNet 基准测试中实现了 81.5% 的 Top-1 准确率,较相似计算成本的最先进的可视变换器高出 1.7%。
Feb, 2021
提出了一种新型的 Deformable Patch(DePatch)模块,可以自适应地将图像分割为具有不同位置和比例的补丁,从而更好地保留了补丁中的语义信息。将该模块加入 Transformer 中,在图像分类和目标检测等任务上进行广泛评估。
Jul, 2021