多环境双超先验神经图像压缩
提出了一种新型的基于 Transformer 的熵模型(Entroformer),用于在图像压缩中有效地捕获远距离依赖,并通过并行双向上下文模型加速解码进程,实现了最先进的性能。
Feb, 2022
本研究提出了一种新的图像全局参考模型,能够有效利用局部和全局上下文信息,以提高深度图像压缩的性能表现,并且拥有最先进的速率 - 失真性能,同时还新创了一种平均偏移 GDN 模块。
Oct, 2020
通过 attention 机制,我们提出了一种新的信息变换学习熵模型,能更好地处理图像压缩的全局和局部依赖关系,实验证明该模型取得了优于现有技术的率失真性能,并且没有二次计算复杂度问题。
Dec, 2021
本文提出了基于全局相似性的非局部关注块来进行上下文建模,在熵编码中应用该方法,进而在联合速率失真优化中引导分析转换与合成转换网络的训练,并最终使用 U-Net 块增加转换的宽度,从而在 Kodak 和 Tecnick 数据集上实现了超越现有标准与最新深度图像压缩模型的低失真压缩。
May, 2020
本研究提出了一种基于 3D-CNN 的条件概率模型方法,用于直接建模图像自动编码器隐层表示的熵,从而控制重构误差和信息熵之间的平衡关系,该方法在 MS-SSIM 能力测试中表现优异,成为一种最新的图像压缩系统。
Jan, 2018
本文提出了一种基于序列解码过程的因果上下文熵预测的概念,以捕捉图像压缩的全局相关性和跨通道关系,同时,采用新的独立注意力模块构建更强的转换网络,实验结果表明,该系统在 Kodak 数据集上的表现优于标准 VVC/H.266 编解码器,达到了最先进的码率失真性能。
Nov, 2020
本文提出了一种上下文自适应熵模型,用于端到端优化的图像压缩。该模型利用两种上下文,即消耗位上下文和无需消耗位上下文,可更准确地估计每个潜在表示的分布,并提高了压缩性能。实验结果表明,该方法在 PSNR 和 MS-SSIM 指标上优于传统图像编解码器,如 BPG 和 JPEG2000,以及其他以人工神经网络为基础的方法。
Sep, 2018
本文提出了一种交叉通道上下文模型,用于在深度图像压缩中的潜在变量。与传统的 2D mask 卷积只能捕捉空间上下文不同,在局部上下文中,加入交叉通道上下文可以更好地留存邻近通道的信息。
Mar, 2021
本文提出了一种端到端可训练的图像压缩框架,采用自回归和分层先验的组合估计每个潜在表示的分布,并使用一种方法将比特率分配到每个图像以最大化 MS-SSIM。
Oct, 2019
在学习图像压缩框架中,上下文模型在捕捉潜在表示之间的依赖关系方面起到关键作用。为了减少串行自回归上下文模型导致的解码时间,提出了并行上下文模型作为一种替代方法,在解码阶段只需要两个传递,从而方便实现真实场景中的高效图像压缩。然而,由于其不完整的因果上下文,会导致性能下降。针对这个问题,我们对现有的并行上下文模型中观察到的性能下降进行了深入分析,着重从信息的数量和质量两个方面进行研究。基于此分析,我们提出了基于角到中心的变压器上下文模型 (C^3M),旨在增强上下文和潜在预测,并提高速率 - 失真性能。具体来说,我们利用基于对数的预测顺序,逐步从角到中心预测更多的上下文特征。此外,为了扩大分析和合成变换中的感受野,我们在编码器 / 解码器中使用了长程交叉注意力模块 (LCAM),通过在不同通道中分配不同的窗口形状来捕捉远程语义信息。广泛的实验评估表明,所提出的方法是有效的,并且优于最先进的并行方法。最后,根据主观分析,我们建议在基于变压器的图像压缩中改进细节表示是一个值得探索的方向。
Nov, 2023