Mar, 2024

基于文本引导编码的神经图像压缩方法:兼顾像素水平和感知保真度

TL;DR近期在文本引导的图像压缩方面的研究取得了巨大潜力,能够增强重构图像的感知质量,但这些方法往往在像素级保真度方面明显降低,限制了它们的实用性。为了填补这一空白,我们开发了一种新的文本引导图像压缩算法,实现了高感知和像素级保真度,该压缩框架主要通过文本自适应编码和联合图像 - 文本损失的训练来利用文本信息。通过这样做,我们避免了基于文本引导生成模型的解码,这种模型以高度生成多样性著称,并有效地利用了文本的语义信息。各种数据集上的实验结果表明,我们的方法在像素级和感知质量方面均可达到较高水平,无论是人类生成的标题还是机器生成的标题。特别地,在与其他基准方法相比的 LPIPS 方面,我们的方法表现出色,并且在使用更加精心生成的标题时,仍有进一步提高的空间。