可变速率图像压缩的视觉提示调优渐进学习

Nov, 2023

可变速率图像压缩的视觉提示调优渐进学习

Progressive Learning with Visual Prompt Tuning for Variable-Rate Image Compression

Shiyu Qin, Yimin Zhou, Jinpeng Wang, Bin Chen, Baoyi An...

TL;DR该研究提出了一种渐进学习范式，用于基于变速器的图像压缩。通过使用层自适应提示模块 (LPM) 提取输入图像和编码器端以及解码器端的隐藏特征的提示信息，并将其作为额外信息输入到预训练的基于变速器的图像压缩模型的 Svin Transformer 层中，从而改变了模型的关注区域和位数的分配，进而改变了模型的目标压缩比。通过与仅优化不同目标比率的多模型方法相比较，详尽实验证明了所提出的方法在参数存储上节约了 80% 的空间，节约了 90% 的数据集。同时，我们的模型在速率失真性能方面胜过了所有当前的可变比特率图像方法，并接近从头开始训练的最先进的固定比特率图像压缩方法。

Abstract

In this paper, we propose a progressive learning paradigm for transformer-based variable-rate image compression. Our approach covers a wide range of compression rates with the assistance of the Layer-adaptive Pro

progressive learning paradigm variable-rate image compression layer-adaptive prompt module swin transformer rate-distortion performance

发现论文，激发创造

基于 Transformer 的变率图像压缩与感兴趣区域控制

本文提出了一种基于 transformer 学习的图像压缩系统，通过使用 prompt generation 网络，支持 RO I 功能，并允许同时实现可变速和 ROI 编码。实验结果表明，该方法优于其他竞争方法。

May, 2023

基于 Transformer 的变量图像质量目标图像压缩

这篇论文介绍了一种基于 Transformer 的图像压缩系统，根据用户的偏好提供可变的图像质量目标，通过引入提示符令牌，使得自适应生成，学习和适应编码和 / 或解码过程的方法，在可变的质量目标下提高了压缩效果。

Sep, 2023

可变速率图像压缩中的潜在表征选择性压缩学习

本文提出了一种选择性压缩方法来进行基于深度学习的可变速率图像压缩，该方法通过生成 3D 重要性映射并调整该映射来确定不同目标质量水平的压缩所需的基本表示元素。实验结果表明，该方法可以获得与单独训练的参考压缩模型相当的压缩效率，并可以减少解码时间。

Nov, 2022

逐步多模态条件提示调整

通过迭代利用图像和当前的编码信息，我们提出了一种新颖的方法 —— 渐进式多模态条件 Prompt 调整（ProMPT），通过多模态提示的方式使视觉 - 语言特征逐步对齐，从而实现从粗糙到准确的分类。在所有设置中，广泛的实验证明了 ProMPT 方法相对于现有方法的优越性。

Apr, 2024

利用循环神经网络进行可变率图像压缩

本文提出了一种基于卷积 LSTM 神经网络的可变比率图像压缩框架和架构，可以用于压缩缩略图以改善移动设备用户的体验，经测试在 32×32 的缩略图上，与 JPEG、JPEG2000 和 WebP 相比，我们的方法在相同存储大小下提供更好的视觉质量。

Nov, 2015

带有条件自编码器的可变率深度图像压缩

该论文提出了一种基于条件自编码器的新型可变速率学习图像压缩框架，在一个网络中进行可变速率图像压缩，并提供拉格朗日乘子和量化 bin 大小两个速率控制参数，实验结果表明该模型提供了更好的率失真权衡。

Sep, 2019

E^2VPT: 一种有效高效的图像提示调整方法

提出了一种有效和高效的视觉提示调整 (E^2VPT) 方法来实现大规模基于 Transformer 的模型适应，该方法通过引入一组可学习的键值提示和视觉提示分别到自注意力和输入层，以提高模型微调的效果，并设计了提示修剪程序来系统地修剪低重要性的提示，同时保持模型性能，极大地提升了模型的效率。实证结果表明，我们的方法在两个基准测试上优于几种最先进的基线模型，并且参数使用非常低 (例如，在 VTAB-1k 上，模型参数的 0.32%)。

Jul, 2023

插值可变速图像压缩

本研究提出了一种高效的插值可变率（IVR）网络，通过引入 Interpolation Channel Attention（InterpCA）模块来实现可变率控制，实验结果表明 IVR 网络是第一个在 PSNR 和 Multiscale Structural Similarity（MS-SSIM）方面优于 VTM9.0 的可变率学习方法。

Sep, 2021

视觉提示调优

该论文提出了一种名为 Visual Prompt Tuning（VPT）的高效且有效的调整大规模 Transformer 模型的替代方案，相较于 fine-tuning，VPT 仅在输入空间中引入很少的可训练参数，通过在广泛的下游识别任务上的实验，我们发现 VPT 在许多情况下甚至比全尺寸 fine-tuning 更加优秀，同时减小了每个任务的存储成本。

Mar, 2022

PVP：预训练的视觉参数高效微调

本研究提出了一种基于先前训练模型的视觉快速参数调整 (PVP) 框架，可有效降低由于高计算和存储成本带来的计算和存储成本，并在低数据环境下实现优异的结果，特别是在贫瘠的视觉分类领域中。

Apr, 2023