基于 Transformer 的多元化图像补全与信息丢失降低

Mar, 2024

基于 Transformer 的多元化图像补全与信息丢失降低

Transformer based Pluralistic Image Completion with Reduced Information Loss

Qiankun Liu, Yuqi Jiang, Zhentao Tan, Dongdong Chen, Ying Fu...

TL;DR基于 Transformer 的图像修复方法存在信息丢失问题，为解决这个问题，我们提出了 PUT 框架，利用自编码器和非量化 Transformer 来保留图像信息并增加多样性。

Abstract

transformer based methods have achieved great success in image inpainting recently. However, we find that these solutions regard each pixel as a token, thus suffering from an →

transformer based methods image inpainting information loss put framework diversity

发现论文，激发创造

减少 Transformer 多元图像修复中的信息丢失

提出了一种新的基于 Transformer 的框架 PUT，其中包括自动编码器 P-VQVAE 和无量化 Transformer（UQ-Transformer），以尽可能保留输入信息并消除量化所引起的信息丢失。

May, 2022

不要深入黑暗：众多图像修复的潜在代码

大掩蔽众生成图像修复方法，基于离散潜变量的生成框架，通过仅在图像可见位置执行计算的方式来学习潜在先验，利用限制性部分编码器预测每个可见块的令牌标签，双向转换器通过仅查看这些令牌推断缺失的标签，专用合成网络将令牌与部分图像先验相耦合，即使在极端掩蔽设置下也能生成连贯且多样的完整图像，公共基准测试表明所提方法在视觉质量和多样性指标上优于强基线模型。

Mar, 2024

增量变换器结构增强的图像修复与遮盖位置编码

该论文提出了一种基于注意力机制的变形器模型依次恢复整体图像结构，利用一个附加的结构修复器，通过零初始化残差加法有效地集成预训练修补模型，采用掩膜位置编码策略提高了不规则掩膜修补效果。

Mar, 2022

HINT：具有掩膜感知编码和增强注意力的高质量修复变换器

通过引入新颖的遮罩感知像素混洗下采样模块（MPD）和在模型内进行高级推理的同时保持提取自损坏图像的可见信息的完整性的方法，以及通过空间激活通道注意力层（SCAL）提供的有效自注意力机制在多个尺度上对损坏图像建模，我们提出了一种端到端的高质量修复变换器 (HINT)，该方法在 CelebA、CelebA-HQ、Places2 和敦煌等四个数据集上展示了超越当代最先进模型的卓越性能。

Feb, 2024

采用分层 VQ-VAE 对图像修复生成多样化结构

本文提出了一种基于 VQ-VAE 的两阶段模型，在第一阶段生成多个不同结构的粗略结果，第二阶段对于每个粗略结果进行纹理增强，其中纹理生成网络中的结构注意模块利用结构信息捕获远程相关性。这种方法不仅增强了图像修复解的多样性，还提高了生成的多张图像的视觉质量。

Mar, 2021

改进 VQGAN 的向量量化图像建模

使用预训练 Transformers 模型，结合 VQGAN 模型实现离散图像向量量化，进一步提高了图像生成和无监督表示学习的效率和准确性。同时，该模型还在 ImageNet 数据集上的线性探针准确性方面的表现优于同等规模的 Image GPT-L 和 Image GPT-XL 模型。

Oct, 2021

WavePaint: 自监督修复的高效混合器

本文介绍了一种基于 WaveMix 的全卷积神经网络结构 WavePaint 用于图像修复，采用 2D 离散小波变换进行空间和多分辨率的令牌混合，与目前最先进的模型相比，WavePaint 模型参数更少，具有相当的泛化性。

Jul, 2023

基于 Transformer 的高保真多元图像完成

该论文提出了一种结合 transformer 和卷积神经网络的图像补全方法，可实现丰富的多样性和高保真度，普适性强。

Mar, 2021

MAT: 大洞图像修复的掩模感知 Transformer

本文提出了一种基于 transformer 的大孔修复模型，它结合了大尺寸的图像处理和 transformer 的优势，通过在注意力模块中定制面向修复的 transformer 块并使用动态掩码来聚合非局部信息，得到了在多个基准数据集上最先进的效果。

Mar, 2022

混合分辨率令牌化的视觉 Transformer

本文介绍了一种新的图像标记方案 —— 混合分辨率标记 —— 以及如何使用 Quadtree 算法和新的显著性评分器构建图像的代表通量，进而实现更好的图像分类。

Apr, 2023