ConvNeXt-ChARM: 基于 ConvNeXt 变换的高效神经图像压缩
该研究提出了一种改进的变压器 (Transformers) 自回归先验模型及 ConvNeXt-based 预 / 后处理器,并将其应用于图像压缩,提高了压缩效率和解码复杂度的权衡。
Jul, 2023
本文介绍了一种自适应图像压缩变压器 (AICT) 框架,结合了更直接有效的 Transformer-based 通道自回归模型和可学习缩放模块。在基准数据集上的实验结果表明,AICT 框架在编解码效率和解码器复杂度之间的平衡方面显著优于 VVC 参考编码器和神经编解码器 SwinT-ChARM。
Jul, 2023
提出了基于 Transformer 的非线性变换和包含两个不同超先验的熵模型,通过有效地捕获输入图像的局部和全局信息以及利用远距关系提取长程信息,能够在速率 - 失真性能方面表现优于现有的方法。
Sep, 2023
在学习图像压缩框架中,上下文模型在捕捉潜在表示之间的依赖关系方面起到关键作用。为了减少串行自回归上下文模型导致的解码时间,提出了并行上下文模型作为一种替代方法,在解码阶段只需要两个传递,从而方便实现真实场景中的高效图像压缩。然而,由于其不完整的因果上下文,会导致性能下降。针对这个问题,我们对现有的并行上下文模型中观察到的性能下降进行了深入分析,着重从信息的数量和质量两个方面进行研究。基于此分析,我们提出了基于角到中心的变压器上下文模型 (C^3M),旨在增强上下文和潜在预测,并提高速率 - 失真性能。具体来说,我们利用基于对数的预测顺序,逐步从角到中心预测更多的上下文特征。此外,为了扩大分析和合成变换中的感受野,我们在编码器 / 解码器中使用了长程交叉注意力模块 (LCAM),通过在不同通道中分配不同的窗口形状来捕捉远程语义信息。广泛的实验评估表明,所提出的方法是有效的,并且优于最先进的并行方法。最后,根据主观分析,我们建议在基于变压器的图像压缩中改进细节表示是一个值得探索的方向。
Nov, 2023
提出了一种基于 transformers 的上下文模型 Contextformer,在学习压缩图像的过程中,该模型可以泛化到高维空间,并通过引入空间信道关注机制,从而进一步提高上下文相关性和适应性。与其他基于学习的模型相比,在 Kodak、CLIC2020 和 Tecnick 图像数据集上对比实验结果表明,提出的模型比其他方法实现更高的图像压缩效率,并取得了较高的 PSNR 和 MS-SSIM 分数。
Mar, 2022
本文提出了一种交叉通道上下文模型,用于在深度图像压缩中的潜在变量。与传统的 2D mask 卷积只能捕捉空间上下文不同,在局部上下文中,加入交叉通道上下文可以更好地留存邻近通道的信息。
Mar, 2021
本研究介绍了两种增强技术:通道调节和潜在残差预测,提出了比现有上下文自适应模型更好的网络架构,该模型在最小化串行处理、保持数据完整性等方面都性能更优,在 Kodak 和 Tecnick 图像集上的平均速率提高了 6.7% 和 11.4%。在低比特率下,本研究的模型可使速率提高 18%,比像 BPG 这样的手工工程编解码器提高 25%。
Jul, 2020
本文提出了 ConvNeXt V2 模型,融合了无监督学习技术和架构优化,采用全卷积掩码自编码器框架和新的全局响应归一化层,显著提高了各种识别基准的性能,并提供各种尺寸的预训练模型。
Jan, 2023
本文中,我们介绍了一种利用 Efficient Contextformer 对有损图像压缩中的上下文建模的方法,使其在模型复杂度、解码速度和码率失真性能上有所改进。
Jun, 2023
本文提出了一种基于 Transformer 的图像压缩方法(TIC),使用深度神经网络来分析和压缩输入图像,与最先进的基于卷积神经网络和基于人工编码规则压缩算法相比,该方法具有更少的参数个数,达到了同等性能。
Nov, 2021