极低比特率图像压缩下的更多掩蔽

Jun, 2023

极低比特率图像压缩下的更多掩蔽

You Can Mask More For Extremely Low-Bitrate Image Compression

Anqi Li, Feng Li, Jiaxin Han, Huihui Bai, Runmin Cong...

TL;DR本文提出了一种新颖的双自适应掩膜 (DA-Mask) 方法，该方法结合了贴片结构和纹理分布，在极低比特率下有效压缩图像。同时，该研究还结合预先训练的掩膜自编码器 (MAE) 和 DA-Mask 以及 LIC 网络提出了一种基于贴片图像建模 (MIM) 的掩膜压缩模型 (MCM) ，该方法在 R-D 性能、可视质量和下游应用方面优于最新的同类研究。

Abstract

learned image compression (LIC) methods have experienced significant progress during recent years. However, these methods are primarily dedicated to optimizing the rate-distortion (R-D) performance at medium and high bitrates (> 0.1 bits per pixel (bpp)), while research on

learned image compression extremely low bitrates masked autoencoders texture structure dual-adaptive masking

发现论文，激发创造

更长范围上下文化的遮蔽自编码器

我们提出了一种自我监督学习框架，称为 “长程上下文化蒙版自编码器（LC-MAE）”，该方法能够有效地利用全局上下文理解视觉表示，同时减少输入的空间冗余。通过从多个视角学习完整像素和稀疏像素的本地表示，LC-MAE 能够学习到更具有区分性的表示，从而在 ImageNet-1K 上使用 ViT-B 实现了 84.2% 的 top-1 准确率，比基准模型提高了 0.6%。LC-MAE 在下游语义分割和细粒度视觉分类任务中取得了显著的性能提升，并在多个鲁棒性评估指标上均取得了优异的结果。

Oct, 2023

神经图像压缩中有效的掩码采样建模探索

本研究旨在提出一种新的神经图像压缩预训练策略，引入 Cube Mask Sampling Module (CMSM) 以及 Learnable Channel Mask Module 和 Learnable Channel Completion Module (LCMM, LCCM)，有效降低了图像压缩的计算复杂度，同时提高了图像的质量。实验结果表明，与现有的图像压缩方法相比，本方法在 Kodak 和 Tecnick 数据集上实现了更好的性能。

Jun, 2023

LMD：潜在蒙版扩散技术加速图像重建

本文介绍了一种更快的图像重建框架 LMD，通过潜在遮蔽扩散方法，将高分辨率图像投影和重建在潜在空间中，设计了渐进遮蔽扩散模型，通过三种不同的调度器逐渐提高遮蔽比例，以从简单到困难地重建潜在特征，从而加快模型训练速度，同时保持了原始准确性，并在下游任务中显著提高推理速度。

Dec, 2023

面向立体图像压缩的内容感知遮罩图像建模变换器

该研究提出了一种名为 CAMSIC 的立体图像压缩框架，通过引入一种新颖的内容感知蒙版图像建模（MIM）技术，以独立地将每个图像转换为潜在表示，并采用强大的无解码器 Transformer 熵模型，来捕捉立体图像中的空间位移特征，从而实现了最新的速率失真性能。

Mar, 2024

SdAE: 自我蒸馏的遮蔽式自编码器

本文提出了一种名为 SdAE 的简单自蒸馏掩码自编码器网络，该网络具有带有编码器 - 解码器结构的学生分支来重构缺失信息，以及产生蒸馏编码代码本的老师分支。通过分析信息瓶颈，提出了一种构建良好视图以产生潜在表示的方法，并使用多重蒙版策略来提供平衡信息的多个蒙版视图，以增强性能。

Jul, 2022

MISC：基于大型多模态模型驱动的超低比特率图像语义压缩

该研究提出了一种名为多模态图像语义压缩（MISC）的方法，采用大型多模态模型（LMM）来平衡传统自然感知图像和人工智能生成图像的压缩，实现了一致性和感知结果的优化，节省了 50％的比特率，并在存储和通信领域具有强大的应用潜力。

Feb, 2024

基于潜在特征引导和扩散先验的极端图像压缩研究

提出了一种新颖的极端图像压缩框架，该框架将压缩 VAEs 和预训练的文本到图像扩散模型结合在一起，通过潜在特征引导压缩模块进行图像压缩并解码为内容变量，然后利用预训练的扩散模型进一步解码这些内容变量，实验结果表明在极低比特率下，该方法在视觉表现和图像保真度方面优于现有方法。

Apr, 2024

注视所见：不需重建的遮蔽图像建模

本文提出了一种名为 MaskAlign 的高效 MIM 范例，将可视化小片段功能与老师模型提取的整体图像特征相一致，证明即使在掩蔽区域没有重建的情况下，蒙面建模也不会失去效率。与 Dynamic Alignment 相结合，MaskAlign 能够实现高效的最新性能。

Nov, 2022

LoMAE：低剂量 CT 去噪的低层次视觉遮蔽自编码器

通过引入一种名为 LoMAE 的低水平视觉 MAE 模型，本研究展示了一种提高 transformer 去噪性能的方法，极大地减少了对干净数据的依赖，并在不同噪声水平下展现了显著的鲁棒性和普适性。

Oct, 2023

LDM-RSIC: 探索远程感知图像压缩中的畸变先验与潜在扩散模型

通过利用潜在扩散模型的失真先验信息，提出了一种基于深度学习的遥感图像压缩方法，该方法利用生成的先验信息，通过增强网络实现对图像的质量提升。

Jun, 2024