基于视觉分析的图像编码速率失真模型
在有损图像压缩中,我们提出了一种 Rate-Distortion-Classification (RDC) 模型,用于优化速率、失真和分类准确性之间的权衡,从而将图像压缩与视觉分析相结合,为实际应用中的端到端图像压缩技术铺平了道路。
May, 2024
通过结合 MSE-based 模型和生成模型中感兴趣区域 (ROI) 的优势,我们提出了分层感兴趣区域 (H-ROI) 方法,将图像分为几个前景区域和一个背景区域,以提高包含人脸、文字和复杂纹理的区域的重建效果;进一步,通过通道维度内的非线性映射提出了自适应量化来限制比特率同时保持视觉质量。大量实验证明了我们方法在小脸和文字上以更低的比特率实现了更好的视觉质量,如 HiFiC 的 0.7X 比特和 BPG 的 0.5X 比特。
Mar, 2024
通过我们的速率 - 失真计算(RDC)研究,我们展示了虽然浮点运算(FLOPs)和运行时间对于准确地比较神经压缩方法都是不足够的,但我们还是找到了一种新型神经压缩架构,其在计算要求和 RD 性能之间具有最佳的实证权衡。
Sep, 2023
本文提出了一种自适应运动补偿模型,通过多尺度形变对齐方案与多尺度条件编码结合,在运动内容自适应推理的基础上利用增益单元控制位分配,达到了学习视频编码的超越前沿水平的性能。
Jun, 2023
空间 - 时间变换器 (STT-VC) 是通过整合放松可变形变换器 (RDT)、多粒度预测 (MGP) 模块和基于空间特征分布先验的变换器 (SFD-T) 来提高学习视频压缩 (LVC) 的性能。实验结果表明,该方法相比于现有技术在 BD-Rate 节省上获得了 13.5% 的最佳结果。
Sep, 2023
本文提出了一种改进型的 GAN 图像压缩方法,通过使用 DISTS 和 MS-SSIM 指标对颜色、纹理和结构的感知退化度量以及吸收离散化的高斯 - 拉普拉斯 - 逻辑混合模型(GLLMM)来改善熵模型的准确性,并采用 MOS 实验直接评估重构图像的感知质量,实验结果表明该方法优于现有的 GAN 方法和 VVC 等最先进的混合编解码器。
Jun, 2023
本文通过量化解码复杂度作为优化目标,系统研究了神经图像编解码器的速率 - 失真 - 复杂度(RDC)优化,并设计了一个可变复杂度的神经编解码器,支持精细的复杂度调整,展示了 RDC 优化在神经图像编解码器中的可行性和灵活性。
May, 2023
通过使用迭代扩散模型进行解码,同时结合全局文本图像描述来提供额外的上下文,我们的模型在极低比特率下能够重建逼真的图像,其视觉质量不仅与以往方法相媲美,而且对比特率的依赖性更低。
Oct, 2023
该研究提出了一种基于深度学习的内部模式导出方法来减少编码位消耗并在可变编码块中适应不同的量化参数及方案,实验结果显示此方法在 Y、U、V 三个分量可以达到平均 2.28%、1.74% 和 2.18% 的比特率降低。
Apr, 2022
本文介绍了一种基于 Versatile Video Coding 的视频编码方案,用于物体检测,通过减小图像尺寸和对比度的方式实现了更好的编码性能和物体检测精度。
May, 2023