基于 Transformer 的图像压缩
本文提出了一种高效的并行 Transformer-CNN 混合块,用于将 CNN 的本地建模能力和 Transformer 的非本地建模能力相结合,以提高图像压缩模型的整体架构,并在熵估计模型和注意力模块方面取得了最新进展,实验结果表明,该方法在三个不同分辨率的数据集上均实现了具有创新性的率失真表现.
Mar, 2023
本文提出了一种基于 Transformer 的端到端图像压缩和分析模型,实现云端图像分类应用,并通过两步训练策略解决了率失真精度优化问题。实验结果表明,该模型在图像压缩和分类任务中均具有有效性。
Dec, 2021
该研究提出了一种改进的变压器 (Transformers) 自回归先验模型及 ConvNeXt-based 预 / 后处理器,并将其应用于图像压缩,提高了压缩效率和解码复杂度的权衡。
Jul, 2023
本文介绍了一种自适应图像压缩变压器 (AICT) 框架,结合了更直接有效的 Transformer-based 通道自回归模型和可学习缩放模块。在基准数据集上的实验结果表明,AICT 框架在编解码效率和解码器复杂度之间的平衡方面显著优于 VVC 参考编码器和神经编解码器 SwinT-ChARM。
Jul, 2023
本文提出了一种基于可逆神经网络(INNs)的 Invertible Encoding Network 方法来构建更好的图像空间和潜在特征空间之间的转换,并在 Kodak、CLIC 和 Tecnick 数据集上证明了该方法在高分辨率图像方面优于现有的学习图像压缩方法和压缩标准(包括 VVC (VTM 12.1))的实验结果。
Aug, 2021
本文提出了一种基于自动编码器的新型非局部注意力优化深度图像压缩(NLAIC)框架,该框架将非局部操作嵌入编码器和解码器中,以捕捉局部和全局关联,并应用注意机制生成用于加权图像和超先验特征的掩码,从而根据其重要性隐含地适应不同特征的比特分配。此外,超先验和潜在特征的空间 - 通道邻居被用来改进熵编码。该模型在 Kodak 数据集上的性能优于现有的图像压缩方法,包括基于学习的(例如 Balle2019,Balle2018)和传统的(例如 BPG,JPEG2000,JPEG)图像压缩方法,无论是 PSNR 还是 MS-SSIM 畸变度量。
Apr, 2019
学习图像压缩 (LIC) 已成为近年来在图像存储和传输方面的有效解决方案,然而,现有的 LIC 方法存在潜在的表示冗余问题,限制了其对各向异性频率成分和方向细节的捕捉。为了克服这些挑战,我们提出了一种新颖的频率感知变换器 (FAT) 模块,首次实现了对 LIC 的多尺度方向分析。FAT 模块由频率分解窗口注意力 (FDWA) 模块组成,用于捕捉自然图像的多尺度和方向频率成分。此外,我们引入了频率调制前馈网络 (FMFFN),以自适应调制不同频率成分,从而改善了速率失真性能。此外,我们还提出了基于变换器的通道级自回归 (T-CA) 模型,有效地利用了通道依赖性。实验证明,与现有的 LIC 方法相比,我们的方法在速率失真性能上达到了最先进的水平,并在 Kodak、Tecnick 和 CLIC 数据集上相对于最新的标准编解码器 VTM-12.1 提高了 14.5%、15.1% 和 13.0% 的 BD - 率。
Oct, 2023
本论文提出了一种统一的 ViT 压缩框架,其中使用了修剪、跳跃层和知识蒸馏等三种有效技术,经过在 ImageNet 数据集上的实验验证,我们的方法在保证精度的前提下有效压缩 Vision Transformers,比目前已有的压缩方法表现更优。
Mar, 2022
提出了一种新的基于动态深度卷积的转换模块,称为 Self-Conditioned Adaptive Transform with Large-Scale Receptive Fields for Learned Image Compression (SLIC),它在图像压缩中取得了令人瞩目的性能表现,可将可压缩性降低 6.35%。
Apr, 2023
本文提出了一种基于深度神经网络(DNN)的 VAE 结构的新型非局部注意力优化和改进的上下文建模图像压缩(NLAIC)算法,采用了非局部网络操作嵌入到编码器和解码器中,通过采用关注机制生成掩码来让特征自适应量化,实现了改进条件熵建模潜在特征,可在实际应用中增加速度、降低内存消耗和减轻实现复杂度的额外增强措施,并在 Kodak 和 CLIC 数据集上取得了与现有方法相比的最新压缩功率效率。
Oct, 2019