HRFormer: 用于密集预测的高分辨率 Transformer

Oct, 2021

HRFormer: 用于密集预测的高分辨率 Transformer

HRFormer: High-Resolution Transformer for Dense Prediction

Yuhui Yuan, Rao Fu, Lang Huang, Weihong Lin, Chao Zhang...

TL;DR本研究提出了一种名为 High-Resolution Transformer 的方法，用于学习密集预测任务中的高分辨率表示，并取得了在人体姿态估计和语义分割任务中较好的结果。

Abstract

We present a high-resolution transformer (HRFormer) that learns high-resolution representations for dense prediction tasks, in contrast to the original Vision Transformer that produces low-resolution representati

high-resolution transformer dense prediction tasks multi-resolution parallel design local-window self-attention human pose estimation

发现论文，激发创造

HiFormer: 使用 Transformer 实现的分层多尺度表示，用于医学图像分割

本文提出了一种新的方法 HiFormer，它通过使用 Swin Transformer 模块和基于 CNN 的编码器设计了两种多尺度特征表示来有效地跨越 CNN 和 Transformer 进行医学图像分割。在编码器解码器结构的跳跃连接中，我们提出了 Double-Level Fusion（DLF）模块，以确保从两个上述表示中获得的全局和局部特征的细粒度融合。在各种医学图像分割数据集上的广泛实验表明，HiFormer 在计算复杂度、定量和定性结果方面优于其他基于 CNN、Transformer 和混合方法。

Jul, 2022

HDFormer：用于三维人体姿态估计的高阶有向 Transformer

本文提出了使用多阶注意力模块与高阶关节关联的高阶有向变换器（HDFormer）进行人体姿势估计的新框架，该框架可以利用细粒度的人体先验知识来弥补现有方法在处理关节点重叠和快速变化时的不足，实现了实时准确的 3D 姿态估计。

Feb, 2023

用于自动医学图像分割的高分辨率 Swin Transformer

本研究提出了一种基于 Transformer 的医学图像分割网络 HRSTNet，其采用具有高分辨率的设计风格，用 Transformer 块代替卷积层，不断交换不同分辨率的特征图集来提高性能

Jul, 2022

ResFormer：多尺度训练下的 ViT 模型缩放

ResFormer 框架通过多分辨率训练方法和全局 - 局部位置嵌入策略，在图像分类、目标检测、语义分割和视频动作识别等领域取得了较好的结果。

Dec, 2022

深度高分辨率表示学习用于视觉识别

High-Resolution Network (HRNet) is a new computer vision framework that maintains high-resolution representations through the whole process, resulting in semantically richer and spatially more precise representations, which outperforms existing state-of-the-art frameworks in human pose estimation, semantic segmentation, and object detection.

Aug, 2019

用于像素和区域标注的高分辨率表示

本论文对高分辨率表示学习进行进一步的研究，并通过在各种视觉任务中应用简单而有效的修改来增强高分辨率表示，实验表明，这种方法优于现有的方法，并在 Cityscapes、LIP 和 PASCAL Context 等数据集上取得了最佳结果。此外，本论文构建了一个多层表示，并将其应用于 Faster R-CNN 目标检测框架以及拓展框架，并在 COCO 目标检测上实现了超越现有单模型网络的卓越表现。

Apr, 2019

ConvFormer: 利用动态多头卷积注意力实现 Transformer 模型的参数减少，用于 3D 人体姿势估计

本文提出了 ConvFormer：一种新型的卷积变压器，新增了一种动态的多头卷积自注意机制用于单目 3D 人体姿势估计。通过对人体各关节点之间的关系进行建模，利用时间关节特征的新概念进行完全的时间信息融合，成功地在三个基准数据集上实现了 SOTA 水平的结果，相对于以前的变压器模型取得了显著的参数降低。

Apr, 2023

HR-NAS: 使用轻量级 Transformer 搜索高效高分辨率神经结构

本项研究提出了一种名为 HR-NAS 的新型神经结构搜索方法，采用多分辨率特征编码和轻量级 transformer 来动态产生网络架构，并通过高分辨率肢体姿态分割、目标检测和图像分类等密集预测任务的实验结果证明其能够在小的计算预算下实现最先进的性能和 FLOPs 折衷。

Jun, 2021

Inception Transformer

文章提出了一种名为 iFormer 的基于 Inception 的 Transformer 架构，通过一种名为 Inception mixer 的操作使得网络能够更好地捕捉高频信息和低频信息，加入了渐进降低高频分量和增加低频分量的结构，并在图像分类等任务上取得了非常优秀的表现。

May, 2022

UNetFormer: 用于三维医学图像分割的统一视觉 Transformer 模型和预训练框架

本文提出了一个统一的框架，它由两个体系结构组成，称为 UNetFormer，具有基于 3D Swin 变压器的编码器和卷积神经网络和变压器的解码器。该架构的设计允许在准确性和计算成本之间满足宽范围的权衡要求。使用 CT 图像进行自我监督预训练，使用 Medical Segmentation Decathlon（MSD）数据集进行肝和肝肿瘤分割任务的 Fine-tune 和测试，并使用 MRI 图像的 BraTS 21 数据集进行脑肿瘤分割，并在 Dice 评分方面优于其他方法。

Apr, 2022