驯服 Transformer 的高分辨率图像合成

Dec, 2020

驯服 Transformer 的高分辨率图像合成

Taming Transformers for High-Resolution Image Synthesis

Patrick Esser, Robin Rombach, Björn Ommer

TL;DR结合卷积神经网络与 transformers 模型的特点，实现了生成高分辨率图像的任务，并取得了 ImageNet 中类别有条件下的自回归模型的最优结果

Abstract

Designed to learn long-range interactions on sequential data, transformers continue to show state-of-the-art results on a wide variety of tasks. In contrast to →

transformers cnns long-range interactions high-resolution images conditional synthesis

发现论文，激发创造

使用 Transformer 进行高分辨率复杂场景合成

该论文介绍了一种基于深生成模型的图像合成方法，通过压缩和离散表示学习高频细节和纹理信息，再结合自回归转换模型生成高质量的图像。

May, 2021

视觉中的 Transformer：一项综述

本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾，包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点，并提出了未来的研究方向。

Jan, 2021

图像融合变换器

本研究提出一种新的基于 Transformer 的图像融合方法，采用多尺度融合策略同时关注局部和全局信息，使用卷积神经网络与 Transformer 分支捕捉局部和长程特征，经对比实验表明，该方法优于当下多种融合算法。

Jul, 2021

Restormer: 高分辨率图像修复的高效 Transformer 模型

本文提出了一种名为 Restoration Transformer 的有效 Transformers 模型，通过几个关键设计，使其能够捕捉长距离像素交互，同时仍适用于大图像，在图像去噪、去模糊和降雨方面达到了最先进的效果。

Nov, 2021

基于 Transformer 的高保真多元图像完成

该论文提出了一种结合 transformer 和卷积神经网络的图像补全方法，可实现丰富的多样性和高保真度，普适性强。

Mar, 2021

ConvTransformer: 用于视频帧合成的卷积变换器网络

本文提出了一种名为 ConvTransformer 的深层卷积神经网络结构，通过注意力机制学习序列数据之间的依赖关系，用于视频帧合成，相较于传统的卷积 LSTM 方法可实现更好的并行计算效果。

Nov, 2020

CMT: 卷积神经网络与视觉 Transformer 相遇

本文提出了一种基于 Transformer 和 CNN 的新型混合神经网络（CMTs），通过捕捉图像中的长程依赖和建模本地特征，实现了比现有的 DeiT 和 EfficientNet 更高的精度和更小的计算成本。

Jul, 2021

FuseFormer: 用于视觉和热图像融合的 Transformer

通过整合转换器模型的多尺度融合策略，本研究提出了一种新的图像融合方法，以克服使用评价指标作为损失函数所带来的局限性，并改善了整体方法的效果。

Feb, 2024

卷积神经网络和 Transformer 对混合图像的感知类似于人类

混合图像技术（hybrid images）与深度学习视觉模型在研究人类视觉系统的多尺度图像处理方面具有定性一致性且卷积神经网络（CNN）和 Transformer 在视觉皮层腹侧通路中的前向信息传递建模方面表现优异。

Mar, 2022

视频 Transformer 的长短时对比学习

本文提出了一种叫做 “长短时对比学习（LSTCL）” 的学习程序，可以让视频变压器模型在预测来自更长的时间范围内捕获的时序上下文的同时，学习一个有效的剪辑级表示，并在多项视频基准测试上取得了有竞争力的表现，成为有监督基于图像的预训练的有力替代方案。

Jun, 2021