扩散化的通胀：文本到视频超分辨率的高效时态适应

Jan, 2024

扩散化的通胀：文本到视频超分辨率的高效时态适应

Inflation with Diffusion: Efficient Temporal Adaptation for Text-to-Video Super-Resolution

Xin Yuan, Jinoo Baek, Keyang Xu, Omer Tov, Hongliang Fei

TL;DR我们提出了一种高效的基于扩散的文本到视频超分辨率调试方法，利用像素级图像扩散模型的易学性能够捕捉视频生成的空间信息，为了实现这一目标，我们设计了一个高效的体系结构，将文本到图像超分辨率模型的权重膨胀到我们的视频生成框架中，此外，我们还结合了一个时间适配器以确保视频帧之间的时间一致性，我们研究了基于我们膨胀的体系结构的不同调试方法，并报告了计算成本和超分辨率质量之间的权衡，对 Shutterstock 视频数据集进行的实证评估，无论是定量还是定性评估，都表明我们的方法能够以良好的视觉质量和时间一致性执行文本到视频超分辨率生成，为评估时间一致性，我们还在视频格式中提供了可视化结果。

Abstract

We propose an efficient diffusion-based text-to-video super-resolution (SR) tuning approach that leverages the readily learned capacity of pixel level image diffusion model to capture →

diffusion-based text-to-video super-resolution spatial information video generation temporal coherence

发现论文，激发创造

利用扩散先验进行实际图像超分辨率

本文介绍了一种新的方法，利用预先训练的文本到图像扩散模型中所包含的先前知识来实现盲超分辨率，并通过引入可控特征包装模块和渐进聚合采样策略来克服扩散模型固定尺寸的限制，实现对任何大小分辨率的适应，并在综合评估中展示了该方法在超分辨率领域的优越性。

May, 2023

通过扩散模型实现视频超分辨率中的时域一致细节合成以增强感知质量

通过引入 Temporal Conditioning Module 和 Frame-wise Bidirectional Sampling，本文提出了一种基于 Diffusion Models 的 Video Super-Resolution 方法，显著提高了视频的感知质量。

Nov, 2023

高分辨率视频的时间一致性扩展扩散模型

通过文本引导的潜在扩散框架，实现视频升尺度，并在保持时域一致性和质量平衡之间提供更大灵活性。

Dec, 2023

ResShift: 图像超分辨率的高效扩散模型通过残差移动

为解决扩散图像超分辨率方法的低推理速度和性能下降问题，我们提出了一种新颖和高效的扩散模型，通过减少扩散步骤的数量，消除了推理过程中的加速要求以及性能恶化，并通过在高分辨率图像和低分辨率图像之间转移残差来显著提高转换效率。实验显示，该方法在合成和真实数据集上均能获得优秀或至少相当于当前最先进方法的性能，即使只使用 15 个采样步骤。

Jul, 2023

CasSR: 激活图像力量的真实世界图像超分辨率

通过级联扩散控制模型和多重注意机制，本研究提出了一种图像超分辨率方法，其目标是从降质版本中生成高质量、清晰的图像。研究结果表明该方法在提高图像还原的准确性和真实性方面非常有效和优越。

Mar, 2024

通过隐式扩散实现图像超分辨率：一种基于采样空间混合模型的专家和频率增强解码器方法

通过使用扩展的预训练文本图像模型进行扩散先验处理，本研究提出了基于频率补偿模块和样本空间多专家混合（SS-MoE）的潜在空间方法，以提高图像超分辨率的性能。

Oct, 2023

图像超分辨率与文本提示扩散

通过引入文本提示到图像超分辨率中，使用预训练语言模型和扩散模型，实现了优秀的合成和真实图像上的结果。

Nov, 2023

基于扩散的盲文本图像超分辨率

我们提出了一种基于扩散模型的文本图像超分辨率恢复方法（DiffTSR），该方法可以同时恢复具有更准确文本结构和更逼真外观的文本图像。

Dec, 2023

一种廉价的扩展方法：用于高分辨率适应的自级联扩散模型

本文提出了一种新颖的自级联扩散模型，通过利用低分辨率模型的丰富知识快速适应高分辨率图像和视频生成，使用无需调优或廉价上采样器调优范例。该自级联扩散模型整合了一系列多尺度上采样器模块，可以有效地适应更高的分辨率，保持原始组合和生成能力。我们进一步提出了一种基于中心引导的噪声重新调度策略，以加快推理过程并提高局部结构细节。与完全微调相比，我们的方法在训练速度上提高了 5 倍，并且仅需要额外的 0.002M 调优参数。广泛的实验表明，我们的方法可以通过仅仅进行 10k 步的微调，快速适应更高分辨率的图像和视频合成，几乎不需要额外的推理时间。

Feb, 2024

视频超分辨率中扩散模型的学习空间适应性和时间连贯性

本文提出了一种新颖的方法，即 Spatial Adaptation and Temporal Coherence (SATeCo)，用于视频超分辨率的空间适应和时间一致性，通过学习低分辨率视频的空间 - 时间指导，实现高分辨率视频去噪和像素级视频重建的校准。在预先训练的 UNet 和 VAE 中，通过两个经过精心设计的空间特征适应 (SFA) 和时间特征对齐 (TFA) 模块的优化，实现了 SFA 对帧特征进行调节，通过自适应估计每个像素的仿射参数，确保高分辨率帧合成的像素级指导；而 TFA 通过自注意力机制深入分析 3D 局部窗口 (小管) 内的特征交互，并在小管和低分辨率对应物之间执行交叉注意力，以指导时间特征对齐。在 REDS4 和 Vid4 数据集上进行的大量实验验证了我们方法的有效性。

Mar, 2024