深度图像压缩中的跨通道上下文模型
本文提出了一种基于序列解码过程的因果上下文熵预测的概念,以捕捉图像压缩的全局相关性和跨通道关系,同时,采用新的独立注意力模块构建更强的转换网络,实验结果表明,该系统在 Kodak 数据集上的表现优于标准 VVC/H.266 编解码器,达到了最先进的码率失真性能。
Nov, 2020
本研究介绍了两种增强技术:通道调节和潜在残差预测,提出了比现有上下文自适应模型更好的网络架构,该模型在最小化串行处理、保持数据完整性等方面都性能更优,在 Kodak 和 Tecnick 图像集上的平均速率提高了 6.7% 和 11.4%。在低比特率下,本研究的模型可使速率提高 18%,比像 BPG 这样的手工工程编解码器提高 25%。
Jul, 2020
本研究提出了一种基于 3D-CNN 的条件概率模型方法,用于直接建模图像自动编码器隐层表示的熵,从而控制重构误差和信息熵之间的平衡关系,该方法在 MS-SSIM 能力测试中表现优异,成为一种最新的图像压缩系统。
Jan, 2018
提出了基于 Transformer 的非线性变换和包含两个不同超先验的熵模型,通过有效地捕获输入图像的局部和全局信息以及利用远距关系提取长程信息,能够在速率 - 失真性能方面表现优于现有的方法。
Sep, 2023
本文提出了一种端到端可训练的图像压缩框架,采用自回归和分层先验的组合估计每个潜在表示的分布,并使用一种方法将比特率分配到每个图像以最大化 MS-SSIM。
Oct, 2019
本文提出了基于全局相似性的非局部关注块来进行上下文建模,在熵编码中应用该方法,进而在联合速率失真优化中引导分析转换与合成转换网络的训练,并最终使用 U-Net 块增加转换的宽度,从而在 Kodak 和 Tecnick 数据集上实现了超越现有标准与最新深度图像压缩模型的低失真压缩。
May, 2020
提出了一种基于 transformers 的上下文模型 Contextformer,在学习压缩图像的过程中,该模型可以泛化到高维空间,并通过引入空间信道关注机制,从而进一步提高上下文相关性和适应性。与其他基于学习的模型相比,在 Kodak、CLIC2020 和 Tecnick 图像数据集上对比实验结果表明,提出的模型比其他方法实现更高的图像压缩效率,并取得了较高的 PSNR 和 MS-SSIM 分数。
Mar, 2022
本文提出了一种上下文自适应熵模型,用于端到端优化的图像压缩。该模型利用两种上下文,即消耗位上下文和无需消耗位上下文,可更准确地估计每个潜在表示的分布,并提高了压缩性能。实验结果表明,该方法在 PSNR 和 MS-SSIM 指标上优于传统图像编解码器,如 BPG 和 JPEG2000,以及其他以人工神经网络为基础的方法。
Sep, 2018
在学习图像压缩框架中,上下文模型在捕捉潜在表示之间的依赖关系方面起到关键作用。为了减少串行自回归上下文模型导致的解码时间,提出了并行上下文模型作为一种替代方法,在解码阶段只需要两个传递,从而方便实现真实场景中的高效图像压缩。然而,由于其不完整的因果上下文,会导致性能下降。针对这个问题,我们对现有的并行上下文模型中观察到的性能下降进行了深入分析,着重从信息的数量和质量两个方面进行研究。基于此分析,我们提出了基于角到中心的变压器上下文模型 (C^3M),旨在增强上下文和潜在预测,并提高速率 - 失真性能。具体来说,我们利用基于对数的预测顺序,逐步从角到中心预测更多的上下文特征。此外,为了扩大分析和合成变换中的感受野,我们在编码器 / 解码器中使用了长程交叉注意力模块 (LCAM),通过在不同通道中分配不同的窗口形状来捕捉远程语义信息。广泛的实验评估表明,所提出的方法是有效的,并且优于最先进的并行方法。最后,根据主观分析,我们建议在基于变压器的图像压缩中改进细节表示是一个值得探索的方向。
Nov, 2023
本研究提出了一种新的图像全局参考模型,能够有效利用局部和全局上下文信息,以提高深度图像压缩的性能表现,并且拥有最先进的速率 - 失真性能,同时还新创了一种平均偏移 GDN 模块。
Oct, 2020