面向立体图像压缩的内容感知遮罩图像建模变换器
本文提出了一种新颖的双自适应掩膜 (DA-Mask) 方法,该方法结合了贴片结构和纹理分布,在极低比特率下有效压缩图像。同时,该研究还结合预先训练的掩膜自编码器 (MAE) 和 DA-Mask 以及 LIC 网络提出了一种基于贴片图像建模 (MIM) 的掩膜压缩模型 (MCM) ,该方法在 R-D 性能、可视质量和下游应用方面优于最新的同类研究。
Jun, 2023
本研究提出了一种简洁而有效的框架 SemanticMIM,以整合遮罩图像建模(MIM)和对比学习(CL)的优势,用于通用视觉表示。通过对 CL 和 MIM 进行彻底的比较分析,揭示了它们互补优势根源于压缩和重建两个不同阶段,而 SemanticMIM 利用代理架构自定义图像和掩码令牌之间的交互,以丰富的语义和位置感知性实现通用视觉表示。通过广泛的定性和定量评估,我们证明了 SemanticMIM 有效地融合了 CL 和 MIM 的优点,显著提升了性能和特征的线性可分性,并提供了引人注目的注意力响应可视化。
Jun, 2024
本文提出了一种立体图像压缩方法,采用单图像自编码器和参数化跳跃函数进行压缩,并使用条件熵模型对图像代码的概率依赖关系进行建模,实验结果表明,在低码率下与深度单图像压缩相比,第二幅图像的比特率减少了 30-50%,高码率下减少了 10-20%。
Aug, 2019
本文提出了一种名为 GeoMIM 的多相机视觉转换器,通过预训练 - 微调的方法将 LiDAR BEV 模型的知识传递给 GeoMIM,以改善多视图基于相机的三维检测,并在 nuscenes 基准测试中取得了最新的表现。
Mar, 2023
本文提出了一种基于 Transformer 的图像压缩方法(TIC),使用深度神经网络来分析和压缩输入图像,与最先进的基于卷积神经网络和基于人工编码规则压缩算法相比,该方法具有更少的参数个数,达到了同等性能。
Nov, 2021
本研究基于分布式源编码理论,以独立编码和联合解码为基础,设计了一种学习型分布式多视角图像编码 (LDMIC) 框架,通过交叉信息传输机制有效捕获全局视角间的相关性,无需考虑几何关系,并表现出显著的优于传统的和基于学习的 MIC 方法,同时具有快速的编码速度。
Jan, 2023
该研究提出了一种名为多模态图像语义压缩(MISC)的方法,采用大型多模态模型(LMM)来平衡传统自然感知图像和人工智能生成图像的压缩,实现了一致性和感知结果的优化,节省了 50%的比特率,并在存储和通信领域具有强大的应用潜力。
Feb, 2024
本研究旨在提出一种新的神经图像压缩预训练策略,引入 Cube Mask Sampling Module (CMSM) 以及 Learnable Channel Mask Module 和 Learnable Channel Completion Module (LCMM, LCCM),有效降低了图像压缩的计算复杂度,同时提高了图像的质量。实验结果表明,与现有的图像压缩方法相比,本方法在 Kodak 和 Tecnick 数据集上实现了更好的性能。
Jun, 2023
提出了一种 Medical Image Segmentation Transformer (MIST) 用于医学图像分割,其中包括一个新型的 Convolutional Attention Mixing (CAM) decoder,通过 skip connections 抑制不必要的信息,实验结果在 ACDC 和 Synapse 数据集上显示,我们的 MIST transformer with CAM decoder 优于专门设计用于医学图像分割的最先进模型。
Oct, 2023