面向立体图像压缩的内容感知遮罩图像建模变换器

Mar, 2024

面向立体图像压缩的内容感知遮罩图像建模变换器

Content-aware Masked Image Modeling Transformer for Stereo Image Compression

Xinjie Zhang, Shenyuan Gao, Zhening Liu, Xingtong Ge, Dailan He...

TL;DR该研究提出了一种名为 CAMSIC 的立体图像压缩框架，通过引入一种新颖的内容感知蒙版图像建模（MIM）技术，以独立地将每个图像转换为潜在表示，并采用强大的无解码器 Transformer 熵模型，来捕捉立体图像中的空间位移特征，从而实现了最新的速率失真性能。

Abstract

Existing learning-based stereo image codec adopt sophisticated transformation with simple entropy models derived from single image codecs to encode latent representations. However, those →

stereo image codec latent representations entropy models content-aware masked image modeling rate-distortion performance

发现论文，激发创造

极低比特率图像压缩下的更多掩蔽

本文提出了一种新颖的双自适应掩膜 (DA-Mask) 方法，该方法结合了贴片结构和纹理分布，在极低比特率下有效压缩图像。同时，该研究还结合预先训练的掩膜自编码器 (MAE) 和 DA-Mask 以及 LIC 网络提出了一种基于贴片图像建模 (MIM) 的掩膜压缩模型 (MCM) ，该方法在 R-D 性能、可视质量和下游应用方面优于最新的同类研究。

Jun, 2023

SemanticMIM: 结合语义压缩的屏蔽图像建模用于通用视觉表示

本研究提出了一种简洁而有效的框架 SemanticMIM，以整合遮罩图像建模（MIM）和对比学习（CL）的优势，用于通用视觉表示。通过对 CL 和 MIM 进行彻底的比较分析，揭示了它们互补优势根源于压缩和重建两个不同阶段，而 SemanticMIM 利用代理架构自定义图像和掩码令牌之间的交互，以丰富的语义和位置感知性实现通用视觉表示。通过广泛的定性和定量评估，我们证明了 SemanticMIM 有效地融合了 CL 和 MIM 的优点，显著提升了性能和特征的线性可分性，并提供了引人注目的注意力响应可视化。

Jun, 2024

DSIC: 深度立体影像压缩

本文提出了一种立体图像压缩方法，采用单图像自编码器和参数化跳跃函数进行压缩，并使用条件熵模型对图像代码的概率依赖关系进行建模，实验结果表明，在低码率下与深度单图像压缩相比，第二幅图像的比特率减少了 30-50％，高码率下减少了 10-20％。

Aug, 2019

PMatch：用于密集几何匹配的成对掩蔽图像建模

本文通过对预训练模块重构和加入新模块，实现了稠密几何匹配任务的最优表现，并提供了相应的代码和模型。

Mar, 2023

通过遮蔽图像建模实现更好的三维知识转移，用于多视角三维理解

本文提出了一种名为 GeoMIM 的多相机视觉转换器，通过预训练 - 微调的方法将 LiDAR BEV 模型的知识传递给 GeoMIM，以改善多视图基于相机的三维检测，并在 nuscenes 基准测试中取得了最新的表现。

Mar, 2023

基于 Transformer 的图像压缩

本文提出了一种基于 Transformer 的图像压缩方法（TIC），使用深度神经网络来分析和压缩输入图像，与最先进的基于卷积神经网络和基于人工编码规则压缩算法相比，该方法具有更少的参数个数，达到了同等性能。

Nov, 2021

LDMIC: 基于学习的分布式多视角图像编码

本研究基于分布式源编码理论，以独立编码和联合解码为基础，设计了一种学习型分布式多视角图像编码 (LDMIC) 框架，通过交叉信息传输机制有效捕获全局视角间的相关性，无需考虑几何关系，并表现出显著的优于传统的和基于学习的 MIC 方法，同时具有快速的编码速度。

Jan, 2023

MISC：基于大型多模态模型驱动的超低比特率图像语义压缩

该研究提出了一种名为多模态图像语义压缩（MISC）的方法，采用大型多模态模型（LMM）来平衡传统自然感知图像和人工智能生成图像的压缩，实现了一致性和感知结果的优化，节省了 50％的比特率，并在存储和通信领域具有强大的应用潜力。

Feb, 2024

神经图像压缩中有效的掩码采样建模探索

本研究旨在提出一种新的神经图像压缩预训练策略，引入 Cube Mask Sampling Module (CMSM) 以及 Learnable Channel Mask Module 和 Learnable Channel Completion Module (LCMM, LCCM)，有效降低了图像压缩的计算复杂度，同时提高了图像的质量。实验结果表明，与现有的图像压缩方法相比，本方法在 Kodak 和 Tecnick 数据集上实现了更好的性能。

Jun, 2023

MIST：具有卷积注意力混合（CAM）解码器的医学图像分割变压器

提出了一种 Medical Image Segmentation Transformer (MIST) 用于医学图像分割，其中包括一个新型的 Convolutional Attention Mixing (CAM) decoder，通过 skip connections 抑制不必要的信息，实验结果在 ACDC 和 Synapse 数据集上显示，我们的 MIST transformer with CAM decoder 优于专门设计用于医学图像分割的最先进模型。

Oct, 2023