神经分布式图像压缩与交叉注意特征对齐

Jul, 2022

神经分布式图像压缩与交叉注意特征对齐

Neural Distributed Image Compression with Cross-Attention Feature Alignment

Nitish Mital, Ezgi Ozyilkan, Ali Garjani, Deniz Gunduz

TL;DR本文介绍了一种新的编解码方法，可以压缩成对立体图像并利用解码器端的相关性附加信息，以更有效地重构图像。该算法利用了交叉注意力模块对齐处理相关特征图，实验验证了其在 KITTI 和 Cityscape 数据集上的优越性能。

Abstract

We consider the problem of compressing an information source when a correlated one is available as side information only at the decoder side, which is a special case of the distributed source coding problem in information theory. In particular, we consider a pair of →

distributed source coding stereo images latent representation entropy coding cross-attention module

发现论文，激发创造

基于公共信息的神经分布式图像压缩

提出了一种新颖的深度神经网络结构，用于在仅在解码器处存在相关图像侧信息时压缩图像，特别地，我们考虑一对立体图像并假设其中一幅图像要被压缩和传输，而另一幅图像仅在解码器处可用，我们的方法利用解码器只有的侧信息进行压缩并得到了比之前工作更好的结果。

Jun, 2021

使用解码器侧信息的深度图像压缩

作者提出了一个基于深度学习的图像压缩神经网络，该网络利用仅仅面向解码器的附加信息，并基于编码器可用的图像和解码器可用的图像是相互关联的这一假设，在训练阶段让网络学习这些关联。然后，在运行时，编码器侧对输入图像进行编码而不知道解码器侧图像的任何信息，然后将其发送到解码器。解码器然后使用编码的输入图像和侧信息图像来重建原始图像。在信息理论中，这个问题称为分布源编码，并且我们讨论了这个技术的几个用例。我们将我们的算法与几个图像压缩算法进行了比较，并展示了添加仅面向解码器的附加信息确实可以改善结果。

Jan, 2020

仅使用基于注意力的神经网络进行图像压缩

本研究探讨了只使用注意力层进行图像压缩的可行性，并在我们的新模型 QPressFormer 中引入了学习的图像查询的概念，通过交叉注意力聚合补丁信息，然后进行量化和编码技术，通过对 Kodak、DIV2K 和 CLIC 数据集进行全面评估，显示了无卷积架构在图像压缩中达到了竞争性的性能。

Oct, 2023

FFCA-Net: 通过快速级联对齐辅助信息进行立体图像压缩

通过采用基于特征的快速级联对齐网络（FFCA-Net）来利用译码器上的辅助信息，提出了一种解决立体成像任务中解码延迟问题的方法，该方法利用了初始阶段的特征域补丁匹配模块和基于沙漏的稀疏立体细化网络以及轻量级高性能特征融合网络（FFF）来解码对齐的特征，实验证明该方法在解码速度上比传统和基于学习的 SIC 方法快 3 到 10 倍。

Dec, 2023

利用合作的跨模态侧面信息的知觉图像压缩

本文介绍一种利用文本引导辅助信息的创新深度图像压缩方法，通过预测语义掩码，将文本和图像特征融合，设计了条件生成对抗网络以改进重建图像的感知质量，并在四个数据集和十个图像质量评估指标下证明了该方法在速率感知性能和语义失真方面的优越结果。

Nov, 2023

探索和提取跨模态信息以用于图像字幕生成

本研究提出基于 Transformer 的全局与局部信息探索与提炼方法，在跨模态视角下探究图像字幕生成，并在 COCO 测试集上取得了 129.3 的 CIDEr 分数。

Feb, 2020

DSIC: 深度立体影像压缩

本文提出了一种立体图像压缩方法，采用单图像自编码器和参数化跳跃函数进行压缩，并使用条件熵模型对图像代码的概率依赖关系进行建模，实验结果表明，在低码率下与深度单图像压缩相比，第二幅图像的比特率减少了 30-50％，高码率下减少了 10-20％。

Aug, 2019

ECSIC: 立体图像压缩的极线交叉关注

本文提出了一种新颖的学习方法 ECSIC，用于立体图像压缩。通过利用立体图像对之间的相互信息，我们的方法以联合的方式压缩左右图像，采用新颖的立体交互注意力模块（SCA）和两个立体上下文模块。SCA 模块在两个图像的对应极线上进行跨注意力限制处理，并且并行处理。立体上下文模块通过使用第一个图像作为上下文来改进第二个编码图像的熵估计。我们进行了大量的消融研究，验证了所提出模块的有效性，并与现有方法进行了全面的定量和定性比较。ECSIC 在两个流行的立体图像数据集 Cityscapes 和 InStereo2k 上实现了最先进的性能，在保证快速编解码的同时，非常适用于实时应用。

Jul, 2023

基于原则的分层深度学习方法用于联合图像压缩和分类

通过三步联合学习策略，将编码器引导为具有紧凑性、有辨识力的特征，以低频带宽要求传递高分类准确性的特征信息，并通过基于熵的量化和 / 或手动截断实现可调的比特率。

Oct, 2023

探索压缩图像表示作为感知代理：一项研究

我们提出了一种端到端学习的图像压缩编解码器，其中分析变换与目标分类任务同时训练。该研究证实，压缩的潜在表示能够以与定制的基于深度神经网络的质量指标相媲美的准确性预测人的感知距离判断。我们进一步研究了各种神经编码器，并展示了将分析变换作为超出质量判断之外的图像任务的感知损失网络的有效性。我们的实验表明，现成的神经编码器在感知建模方面表现出色，无需额外的 VGG 网络。我们期望这项研究能够成为开发语义感知和编码高效的神经编码器的有价值参考。

Jan, 2024