极低比特率图像压缩下的更多掩蔽
我们提出了一种自我监督学习框架,称为 “长程上下文化蒙版自编码器(LC-MAE)”,该方法能够有效地利用全局上下文理解视觉表示,同时减少输入的空间冗余。通过从多个视角学习完整像素和稀疏像素的本地表示,LC-MAE 能够学习到更具有区分性的表示,从而在 ImageNet-1K 上使用 ViT-B 实现了 84.2% 的 top-1 准确率,比基准模型提高了 0.6%。LC-MAE 在下游语义分割和细粒度视觉分类任务中取得了显著的性能提升,并在多个鲁棒性评估指标上均取得了优异的结果。
Oct, 2023
本研究旨在提出一种新的神经图像压缩预训练策略,引入 Cube Mask Sampling Module (CMSM) 以及 Learnable Channel Mask Module 和 Learnable Channel Completion Module (LCMM, LCCM),有效降低了图像压缩的计算复杂度,同时提高了图像的质量。实验结果表明,与现有的图像压缩方法相比,本方法在 Kodak 和 Tecnick 数据集上实现了更好的性能。
Jun, 2023
本文介绍了一种更快的图像重建框架 LMD,通过潜在遮蔽扩散方法,将高分辨率图像投影和重建在潜在空间中,设计了渐进遮蔽扩散模型,通过三种不同的调度器逐渐提高遮蔽比例,以从简单到困难地重建潜在特征,从而加快模型训练速度,同时保持了原始准确性,并在下游任务中显著提高推理速度。
Dec, 2023
该研究提出了一种名为 CAMSIC 的立体图像压缩框架,通过引入一种新颖的内容感知蒙版图像建模(MIM)技术,以独立地将每个图像转换为潜在表示,并采用强大的无解码器 Transformer 熵模型,来捕捉立体图像中的空间位移特征,从而实现了最新的速率失真性能。
Mar, 2024
本文提出了一种名为 SdAE 的简单自蒸馏掩码自编码器网络,该网络具有带有编码器 - 解码器结构的学生分支来重构缺失信息,以及产生蒸馏编码代码本的老师分支。通过分析信息瓶颈,提出了一种构建良好视图以产生潜在表示的方法,并使用多重蒙版策略来提供平衡信息的多个蒙版视图,以增强性能。
Jul, 2022
该研究提出了一种名为多模态图像语义压缩(MISC)的方法,采用大型多模态模型(LMM)来平衡传统自然感知图像和人工智能生成图像的压缩,实现了一致性和感知结果的优化,节省了 50%的比特率,并在存储和通信领域具有强大的应用潜力。
Feb, 2024
提出了一种新颖的极端图像压缩框架,该框架将压缩 VAEs 和预训练的文本到图像扩散模型结合在一起,通过潜在特征引导压缩模块进行图像压缩并解码为内容变量,然后利用预训练的扩散模型进一步解码这些内容变量,实验结果表明在极低比特率下,该方法在视觉表现和图像保真度方面优于现有方法。
Apr, 2024
本文提出了一种名为 MaskAlign 的高效 MIM 范例,将可视化小片段功能与老师模型提取的整体图像特征相一致,证明即使在掩蔽区域没有重建的情况下,蒙面建模也不会失去效率。与 Dynamic Alignment 相结合,MaskAlign 能够实现高效的最新性能。
Nov, 2022
通过引入一种名为 LoMAE 的低水平视觉 MAE 模型,本研究展示了一种提高 transformer 去噪性能的方法,极大地减少了对干净数据的依赖,并在不同噪声水平下展现了显著的鲁棒性和普适性。
Oct, 2023
通过利用潜在扩散模型的失真先验信息,提出了一种基于深度学习的遥感图像压缩方法,该方法利用生成的先验信息,通过增强网络实现对图像的质量提升。
Jun, 2024