高效的学习图片压缩的 Corner-to-Center 长距离上下文模型

Nov, 2023

高效的学习图片压缩的 Corner-to-Center 长距离上下文模型

Corner-to-Center Long-range Context Model for Efficient Learned Image Compression

Yang Sui, Ding Ding, Xiang Pan, Xiaozhong Xu, Shan Liu...

TL;DR在学习图像压缩框架中，上下文模型在捕捉潜在表示之间的依赖关系方面起到关键作用。为了减少串行自回归上下文模型导致的解码时间，提出了并行上下文模型作为一种替代方法，在解码阶段只需要两个传递，从而方便实现真实场景中的高效图像压缩。然而，由于其不完整的因果上下文，会导致性能下降。针对这个问题，我们对现有的并行上下文模型中观察到的性能下降进行了深入分析，着重从信息的数量和质量两个方面进行研究。基于此分析，我们提出了基于角到中心的变压器上下文模型 (C^3M)，旨在增强上下文和潜在预测，并提高速率 - 失真性能。具体来说，我们利用基于对数的预测顺序，逐步从角到中心预测更多的上下文特征。此外，为了扩大分析和合成变换中的感受野，我们在编码器 / 解码器中使用了长程交叉注意力模块 (LCAM)，通过在不同通道中分配不同的窗口形状来捕捉远程语义信息。广泛的实验评估表明，所提出的方法是有效的，并且优于最先进的并行方法。最后，根据主观分析，我们建议在基于变压器的图像压缩中改进细节表示是一个值得探索的方向。

Abstract

In the framework of learned image compression, the context model plays a pivotal role in capturing the dependencies among latent representations. To reduce the decoding time resulting from the serial autoregressive context model, the →

learned image compression parallel context model corner-to-center transformer-based context model rate-distortion performance transformer-based image compression

发现论文，激发创造

多环境双超先验神经图像压缩

提出了基于 Transformer 的非线性变换和包含两个不同超先验的熵模型，通过有效地捕获输入图像的局部和全局信息以及利用远距关系提取长程信息，能够在速率 - 失真性能方面表现优于现有的方法。

Sep, 2023

高效学习图像压缩的棋盘格上下文模型

本文提出了一个平行化友好的棋盘格上下文模型（CCM），旨在提高可学习的图像压缩过程的效率，其通过重组解码顺序以消除空间位置的限制，实现计算效率的显著改进，在保持近似相同的率失真性能的情况下，实验结果显示它将解码速度提高了 40 倍以上，并且，这是第一个探索平行化友好的空间上下文模型用于学习图像压缩的探索。

Mar, 2021

Contextformer: 带有空间通道注意力进行上下文建模的 Transformer 在学习图像压缩中的应用

提出了一种基于 transformers 的上下文模型 Contextformer，在学习压缩图像的过程中，该模型可以泛化到高维空间，并通过引入空间信道关注机制，从而进一步提高上下文相关性和适应性。与其他基于学习的模型相比，在 Kodak、CLIC2020 和 Tecnick 图像数据集上对比实验结果表明，提出的模型比其他方法实现更高的图像压缩效率，并取得了较高的 PSNR 和 MS-SSIM 分数。

Mar, 2022

深度图像压缩中的跨通道上下文模型

本文提出了一种交叉通道上下文模型，用于在深度图像压缩中的潜在变量。与传统的 2D mask 卷积只能捕捉空间上下文不同，在局部上下文中，加入交叉通道上下文可以更好地留存邻近通道的信息。

Mar, 2021

基于因果关系的上下文预测学习图像压缩

本文提出了一种基于序列解码过程的因果上下文熵预测的概念，以捕捉图像压缩的全局相关性和跨通道关系，同时，采用新的独立注意力模块构建更强的转换网络，实验结果表明，该系统在 Kodak 数据集上的表现优于标准 VVC/H.266 编解码器，达到了最先进的码率失真性能。

Nov, 2020

高效的 Contextformer：基于空间 - 通道窗口注意力的快速上下文模拟用于学习图像压缩

本文中，我们介绍了一种利用 Efficient Contextformer 对有损图像压缩中的上下文建模的方法，使其在模型复杂度、解码速度和码率失真性能上有所改进。

Jun, 2023

深度图像压缩的条件概率模型

本研究提出了一种基于 3D-CNN 的条件概率模型方法，用于直接建模图像自动编码器隐层表示的熵，从而控制重构误差和信息熵之间的平衡关系，该方法在 MS-SSIM 能力测试中表现优异，成为一种最新的图像压缩系统。

Jan, 2018

图像字幕紧凑双向 Transformer

本文提出了一种可实现双向上下文隐式和显式利用以及可并行执行解码器的紧凑型双向变形器模型，具有句子级集成方法和单词级集成方法，经试验证明，该模型在图像字幕生成方面具有最新的最先进的效果。

Jan, 2022

在线语言模型交互的压缩上下文记忆

本文提出一种在在线场景（如 ChatGPT）中用于 Transformer 语言模型的新型上下文压缩方法，将不断扩展的上下文压缩到紧凑的记忆空间中，并通过轻量级条件 LoRA 在推理过程中实现对压缩上下文记忆的操作，从而减小内存和注意力操作，实现与完整上下文模型相当的性能，但所需上下文内存空间仅为原来的五分之一。

Dec, 2023

C3: 单图像或视频的高性能低复杂度神经压缩

C3 是一种神经压缩方法，通过对每个图像或视频进行过度拟合从而获得强大的率失真性能，其解码复杂度与其他具有相似率失真性能的神经模型相比可降低一个数量级。C3 在 COOL-CHIC 的基础上进行改进，并且还开发了将 C3 应用于视频的新方法。在 CLIC2020 图像基准测试中，我们将 C3 解码的每个像素的 MAC 数减少到不足 3k，与 H.266 编解码器的 VDH 性能相当。在 UVG 视频基准测试中，我们将 C3 解码的每个像素的 MAC 数减少到不足 5k，与 Video Compression Transformer 的 VDH 性能相当。

Dec, 2023