基于 Transformer 的多元化图像补全与信息丢失降低
提出了一种新的基于 Transformer 的框架 PUT,其中包括自动编码器 P-VQVAE 和无量化 Transformer(UQ-Transformer),以尽可能保留输入信息并消除量化所引起的信息丢失。
May, 2022
大掩蔽众生成图像修复方法,基于离散潜变量的生成框架,通过仅在图像可见位置执行计算的方式来学习潜在先验,利用限制性部分编码器预测每个可见块的令牌标签,双向转换器通过仅查看这些令牌推断缺失的标签,专用合成网络将令牌与部分图像先验相耦合,即使在极端掩蔽设置下也能生成连贯且多样的完整图像,公共基准测试表明所提方法在视觉质量和多样性指标上优于强基线模型。
Mar, 2024
该论文提出了一种基于注意力机制的变形器模型依次恢复整体图像结构,利用一个附加的结构修复器,通过零初始化残差加法有效地集成预训练修补模型,采用掩膜位置编码策略提高了不规则掩膜修补效果。
Mar, 2022
通过引入新颖的遮罩感知像素混洗下采样模块(MPD)和在模型内进行高级推理的同时保持提取自损坏图像的可见信息的完整性的方法,以及通过空间激活通道注意力层(SCAL)提供的有效自注意力机制在多个尺度上对损坏图像建模,我们提出了一种端到端的高质量修复变换器 (HINT),该方法在 CelebA、CelebA-HQ、Places2 和敦煌等四个数据集上展示了超越当代最先进模型的卓越性能。
Feb, 2024
本文提出了一种基于 VQ-VAE 的两阶段模型,在第一阶段生成多个不同结构的粗略结果,第二阶段对于每个粗略结果进行纹理增强,其中纹理生成网络中的结构注意模块利用结构信息捕获远程相关性。这种方法不仅增强了图像修复解的多样性,还提高了生成的多张图像的视觉质量。
Mar, 2021
使用预训练 Transformers 模型,结合 VQGAN 模型实现离散图像向量量化,进一步提高了图像生成和无监督表示学习的效率和准确性。同时,该模型还在 ImageNet 数据集上的线性探针准确性方面的表现优于同等规模的 Image GPT-L 和 Image GPT-XL 模型。
Oct, 2021
本文介绍了一种基于 WaveMix 的全卷积神经网络结构 WavePaint 用于图像修复,采用 2D 离散小波变换进行空间和多分辨率的令牌混合,与目前最先进的模型相比,WavePaint 模型参数更少,具有相当的泛化性。
Jul, 2023
本文提出了一种基于 transformer 的大孔修复模型,它结合了大尺寸的图像处理和 transformer 的优势,通过在注意力模块中定制面向修复的 transformer 块并使用动态掩码来聚合非局部信息,得到了在多个基准数据集上最先进的效果。
Mar, 2022
本文介绍了一种新的图像标记方案 —— 混合分辨率标记 —— 以及如何使用 Quadtree 算法和新的显著性评分器构建图像的代表通量,进而实现更好的图像分类。
Apr, 2023