预训练扩散模型的极致视频压缩

Feb, 2024

Extreme Video Compression with Pre-trained Diffusion Models

Bohan Li, Yiming Liu, Xueyan Niu, Bo Bai, Lei Deng...

TL;DR使用扩散模型的预测能力，在解码器中将多个神经压缩帧转换为连续的视频帧，以实现极端视频压缩，同时考虑感知质量指标，从低比特率下的位每像素（bpp）为 0.02 开始实现视觉上令人满意的重构，结果表明该方案比 H.264 和 H.265 等标准编解码器在低比特率领域具有更好的效果。

Abstract

diffusion models have achieved remarkable success in generating high quality image and video data. More recently, they have also been used for image compression with high perceptual quality. In this paper, we pre

diffusion models video compression generative models perceptual quality low bpp regime

发现论文，激发创造

通过条件扩散解码器增强学习图像编解码器的速率失真感知灵活性

通过使用条件扩散模型，本文展示了它作为解码器时在生成式压缩任务中的良好结果，同时通过采样方法，它们还允许在解码器端基于压缩表示创建新的失真和感知之间的权衡点。

Mar, 2024

基于潜在特征引导和扩散先验的极端图像压缩研究

提出了一种新颖的极端图像压缩框架，该框架将压缩 VAEs 和预训练的文本到图像扩散模型结合在一起，通过潜在特征引导压缩模块进行图像压缩并解码为内容变量，然后利用预训练的扩散模型进一步解码这些内容变量，实验结果表明在极低比特率下，该方法在视觉表现和图像保真度方面优于现有方法。

Apr, 2024

基于基础扩散模型的有损图像压缩

利用扩散模型在图像压缩领域具有潜力，能够在极低码率下产生逼真且详细的重建结果。本研究提出了一种将扩散用于去除量化误差，以恢复传输图像潜在信息的去噪方法，相较于之前的方法，我们的方案只需要进行不到 10% 的扩散生成过程，并且无需对扩散模型进行架构更改，能够有效利用基础模型作为强大的先验，并在定量写实度指标上优于之前的方法，同时经验证明我们的重建结果在质量上也得到了最终用户的认可，并且即使其他方法使用两倍的比特率，我们的方案依然具备优势。

Apr, 2024

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022

VIDM: 视频隐式扩散模型

该研究提出基于扩散模型的视频生成方法，通过隐式条件建模来模拟运动效果，并提出多种策略来优化生成视频的质量。实验证明，该方法在 FVD 得分和视觉质量方面明显优于现有的以生成对抗网络为基础的方法。

Dec, 2022

视频生成的扩散概率建模

本文提出了一种自回归、端到端优化的视频扩散模型，受到神经视频压缩技术的启发，可用于生成高质量的视频，并提出了可扩展的连续排名概率得分（CRPS）方法，以评估视频的概率预测能力，该方法在自然和仿真视频的多个数据集上比先前方法的感知质量和概率预测有着显著的提高。

Mar, 2022

用于生成高保真长视频的潜在视频扩散模型

该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架，可在有限的计算预算下生成更真实、更长的视频，同时提供了大规模文本到视频生成的扩展应用。

Nov, 2022

高分辨率视频生成的分层补丁扩散模型

扩散模型在图像和视频合成方面表现出了卓越的性能，但将其扩展到高分辨率输入是具有挑战性的，并且需要将扩散流程重组为多个独立组件，限制了可伸缩性并复杂化了下游应用。

Jun, 2024

投影潜空间中的视频概率扩散模型

提出了一种名为投影潜空间扩散模型（PVDM）的新型生成模型，该模型在低维潜空间中学习视频分布，通过自编码器将视频投影为二维形状的潜变量，使用专用于新因式潜空间的扩散模型架构和训练 / 采样程序，能够高效地训练和合成任意长度的视频。实验表明与以前的视频生成方法相比，PVDM 在 FVD 评估指标上获得了最高的得分。

Feb, 2023

高斯扩散下的有损压缩

本研究提出了一种基于无条件扩散生成模型的新型有损压缩方法 DiffC，该方法仅利用受高斯噪声污染的像素的有效通信来限制所需传输信息，具有压缩比 HiFiC 更高的性能表现，并提供流式解码支持，并进一步分析了其性能和一些理论界限。

Jun, 2022