利用微调后的 VQGAN 模型进行极端图像压缩

Jul, 2023

利用微调后的 VQGAN 模型进行极端图像压缩

Extreme Image Compression using Fine-tuned VQGAN Models

Qi Mao, Tinghan Yang, Yinuo Zhang, Shuyin Pan, Meng Wang...

TL;DR本文提出了一种基于向量量化 (VQ) 的生成模型的图像压缩编码框架，通过学习 VQGAN 模型的码本可实现在潜空间内对连续信息进行高效压缩，从而在极低比特率下实现优质的重构图像。

Abstract

Recent advances in generative compression methods have demonstrated remarkable progress in enhancing the perceptual quality of compressed data, especially in scenarios with low bitrates. Nevertheless, their efficacy and applicability in achieving →

generative compression methods vector quantization image compression latent space extreme compression ratios

发现论文，激发创造

变分贝叶斯量化

我们提出了一种新颖的算法来量化训练模型中的连续潜在表达式，该算法适用于深度概率模型，可以实现数据和模型压缩，并且可以基于后验不确定性使用自适应量化精度来实现可变的码率失真折衷，实验证明了所提出的算法的有效性。

Feb, 2020

统一生成和压缩：多阶段变形器在超低比特率图像编码中的应用

本文介绍了一种新的统一图像生成 - 压缩（UIGC）范式，该范式将生成和压缩过程合并在一起，通过采用矢量量化图像模型和多阶段 Transformer 来利用空间上下文信息建模先验分布，从而在实现熵估计和丢失令牌再生成方面成功使用学习到的先验，实验结果表明该 UIGC 框架在感知质量和人类感知方面优于现有编解码器，在极低比特率场景下（<=0.03 bpp）开创了生成式压缩的新方向。

Mar, 2024

基于潜在特征引导和扩散先验的极端图像压缩研究

提出了一种新颖的极端图像压缩框架，该框架将压缩 VAEs 和预训练的文本到图像扩散模型结合在一起，通过潜在特征引导压缩模块进行图像压缩并解码为内容变量，然后利用预训练的扩散模型进一步解码这些内容变量，实验结果表明在极低比特率下，该方法在视觉表现和图像保真度方面优于现有方法。

Apr, 2024

深度生成式视频压缩

文章提出了一种基于深度生成模型和序列数据的变分自编码器模型，用于视频压缩，经测试取得了竞争性的压缩效果。

Oct, 2018

分层量化自编码器

该研究使用层次 VQ-VAE 近似压缩图像，同时保持感知质量和抽象特征。在 CelebA 和 MNIST 数据集上进行了定性和定量评估。

Feb, 2020

朝向准确的图像编码：动态向量量化改进自回归图像生成

提出了一种新的两阶段框架，它使用动态量化 VAE 将图像区域编码为基于其信息密度的可变长度代码，以实现更准确，更紧凑的代码表示，从而解决了现有 VQ 基于自回归模型的固定长度编码问题，该方法通过一种新的堆叠 Transformer 架构和共享内容、独立位置输入层设计，从粗粒度到细粒度生成图像。

May, 2023

极限学习图像压缩的生成对抗网络

本研究基于生成对抗网络构建了一个图像压缩系统，其中包括编码器、解码器 / 生成器和多尺度鉴别器，并使用全生成式学习压缩目标。模型可合成存储受限的细节，实现在比之前方法失败且出现严重伪影的比特率下，较视觉上令人满意的结果。此外，如果有原始图像的语义标签映射可用，则本方法可以从标签映射中合成出解码后图像的不重要区域，例如街道和树，并相应地减少存储成本。一个用户研究证实，即使使用两倍以上的比特，低比特率下我们的方法都优于现有技术。

Apr, 2018

在线聚类码本

参考文献通过在线聚类学习方法 Clustering VQ-VAE（CVQ-VAE）解决了向量量化（VQ）中的代码书坍塌问题，提高了在复杂的计算机视觉任务中学习更大的代码书的效果。

Jul, 2023

鲁棒量化向量变分自编码器

本文提出了一种基于 VQ-VAE 的鲁棒生成模型（RVQ-VAE），使用两个分离的码本进行训练以处理数据集中可能的异常值，并采用加权欧几里得距离来量化数据点以确保正确的匹配，实验证明此模型能够在大量数据点受到污染时从内固定集合中生成例子。

Feb, 2022

LG-VQ：语言导向的代码本学习

本文提出了一种新颖的语言引导的码书学习框架 (LG-VQ)，旨在学习与文本对齐的码书，以提高多模态下游任务的性能。实验结果表明，我们的方法在重构和各种多模态下游任务上取得了优越的性能。

May, 2024