利用微调后的 VQGAN 模型进行极端图像压缩
我们提出了一种新颖的算法来量化训练模型中的连续潜在表达式,该算法适用于深度概率模型,可以实现数据和模型压缩,并且可以基于后验不确定性使用自适应量化精度来实现可变的码率失真折衷,实验证明了所提出的算法的有效性。
Feb, 2020
本文介绍了一种新的统一图像生成 - 压缩(UIGC)范式,该范式将生成和压缩过程合并在一起,通过采用矢量量化图像模型和多阶段 Transformer 来利用空间上下文信息建模先验分布,从而在实现熵估计和丢失令牌再生成方面成功使用学习到的先验,实验结果表明该 UIGC 框架在感知质量和人类感知方面优于现有编解码器,在极低比特率场景下(<=0.03 bpp)开创了生成式压缩的新方向。
Mar, 2024
提出了一种新颖的极端图像压缩框架,该框架将压缩 VAEs 和预训练的文本到图像扩散模型结合在一起,通过潜在特征引导压缩模块进行图像压缩并解码为内容变量,然后利用预训练的扩散模型进一步解码这些内容变量,实验结果表明在极低比特率下,该方法在视觉表现和图像保真度方面优于现有方法。
Apr, 2024
提出了一种新的两阶段框架,它使用动态量化 VAE 将图像区域编码为基于其信息密度的可变长度代码,以实现更准确,更紧凑的代码表示,从而解决了现有 VQ 基于自回归模型的固定长度编码问题,该方法通过一种新的堆叠 Transformer 架构和共享内容、独立位置输入层设计,从粗粒度到细粒度生成图像。
May, 2023
本研究基于生成对抗网络构建了一个图像压缩系统,其中包括编码器、解码器 / 生成器和多尺度鉴别器,并使用全生成式学习压缩目标。模型可合成存储受限的细节,实现在比之前方法失败且出现严重伪影的比特率下,较视觉上令人满意的结果。此外,如果有原始图像的语义标签映射可用,则本方法可以从标签映射中合成出解码后图像的不重要区域,例如街道和树,并相应地减少存储成本。一个用户研究证实,即使使用两倍以上的比特,低比特率下我们的方法都优于现有技术。
Apr, 2018
参考文献通过在线聚类学习方法 Clustering VQ-VAE(CVQ-VAE)解决了向量量化(VQ)中的代码书坍塌问题,提高了在复杂的计算机视觉任务中学习更大的代码书的效果。
Jul, 2023
本文提出了一种基于 VQ-VAE 的鲁棒生成模型(RVQ-VAE),使用两个分离的码本进行训练以处理数据集中可能的异常值,并采用加权欧几里得距离来量化数据点以确保正确的匹配,实验证明此模型能够在大量数据点受到污染时从内固定集合中生成例子。
Feb, 2022
本文提出了一种新颖的语言引导的码书学习框架 (LG-VQ),旨在学习与文本对齐的码书,以提高多模态下游任务的性能。实验结果表明,我们的方法在重构和各种多模态下游任务上取得了优越的性能。
May, 2024