学习式图像压缩与文本质量增强

Feb, 2024

Learned Image Compression with Text Quality Enhancement

Chih-Yu Lai, Dung Tran, Kazuhito Koishida

TL;DR通过使用我们提出的文本逻辑损失函数，在图片压缩中获得显著的文本重建质量提高，其结果显示平均字符错误率 (CER) 下降了 -32.64%，单词错误率 (WER) 下降了 -28.03%，并且我们还提出了适用于评估图像压缩中文本质量的定量指标。

Abstract

learned image compression has gained widespread popularity for their efficiency in achieving ultra-low bit-rates. Yet, images containing substantial textual content, particularly screen-content images (SCI), ofte

learned image compression text distortion text logit loss perceptual quality image compression

发现论文，激发创造

基于文本引导编码的神经图像压缩方法：兼顾像素水平和感知保真度

近期在文本引导的图像压缩方面的研究取得了巨大潜力，能够增强重构图像的感知质量，但这些方法往往在像素级保真度方面明显降低，限制了它们的实用性。为了填补这一空白，我们开发了一种新的文本引导图像压缩算法，实现了高感知和像素级保真度，该压缩框架主要通过文本自适应编码和联合图像 - 文本损失的训练来利用文本信息。通过这样做，我们避免了基于文本引导生成模型的解码，这种模型以高度生成多样性著称，并有效地利用了文本的语义信息。各种数据集上的实验结果表明，我们的方法在像素级和感知质量方面均可达到较高水平，无论是人类生成的标题还是机器生成的标题。特别地，在与其他基准方法相比的 LPIPS 方面，我们的方法表现出色，并且在使用更加精心生成的标题时，仍有进一步提高的空间。

Mar, 2024

利用场景文本质量评估实现深度图像压缩

本文提出了一种图像压缩方法，通过提出一种场景文本图像质量评估模型来保持文本质量，该模型迭代搜索保持高质量文本的最佳压缩图像，客观和主观结果表明该方法优于现有方法，探究把这一方法推广到互联网通信工程中的实际应用。

May, 2023

基于模型的二值文档图像压缩迭代恢复与字典学习

使用贝叶斯框架和字典学习设计了一种代价函数，可以重建出更高质量的二进制文档图像并构建出表示和编码该图像的字典，实验结果表明该方法相对于原始噪音图像在视觉效果和压缩比上得到了显著提升。

Apr, 2017

利用合作的跨模态侧面信息的知觉图像压缩

本文介绍一种利用文本引导辅助信息的创新深度图像压缩方法，通过预测语义掩码，将文本和图像特征融合，设计了条件生成对抗网络以改进重建图像的感知质量，并在四个数据集和十个图像质量评估指标下证明了该方法在速率感知性能和语义失真方面的优越结果。

Nov, 2023

文本 + 草图：超低比特率图像压缩

该论文研究了如何将基于 Billion-scale 数据集预训练的文本到图片生成模型用于图像压缩，并证明这些模型可以在很低的比特率情况下实现比学习压缩器更好的感知和语义保真度。

Jul, 2023

极端学习图像多模态深度网络压缩

本文提出了一种文字引导图像压缩的多模态机器学习方法，通过使用文本的语义信息来引导图像压缩，以实现更好的压缩性能，包括采用图像 - 文本注意力模块和改进的多模态语义一致性损失函数。实验证明，该方法能够在极低比特率下获得较好的视觉效果，并且即使与最先进的技术相比，其性能也可以相媲美或超越。

Apr, 2023

端到端优化的图像压缩

描述一种图像压缩方法，其由非线性分析变换、均匀量化器和非线性合成变换构成，并使用卷积线性滤波器和非线性激活函数的三个连续阶段构建变换，其中联合非线性性选择实现形式的局部增益控制，利用随机梯度下降的变体优化整个模型以实现训练图像数据库的速率失真性能，以及一个连续的代理来引入量化器产生的不连续损失函数，具有比标准 JPEG 和 JPEG2000 压缩方法更好的速率失真性能，并且在所有位率下对所有图像的视觉质量均有显著提高。

Nov, 2016

CMC-Bench：走向视觉信号压缩的新范式

超低比特率图像压缩是一个具有挑战性和需求量大的主题。这篇论文介绍了一个基于图像 - 文本 - 图像的语义级压缩方法，通过验证不同模型的协同性能，证明了在超低比特率下一些模型的组合已超过最先进的视觉信号编解码器，同时强调了在压缩任务中进一步优化大规模多模态模型的方向。

Jun, 2024

文本 - 图像组合检索的鲁棒性评估

通过图文组合检索，通过由图像加上一些描述所构成的查询准确检索目标图像，在真实世界的损坏和进一步的文本理解下进行了坚固性研究，建立了三个用于系统分析的新的多样化基准，对视觉和文本的图文组合检索进行评估，包括自然失真的分析和文本理解的论证。

Nov, 2023

高保真神经图像压缩的语义集成损失和潜在精炼

该研究提出了一种改进的神经压缩方法，通过使用复杂的语义集成损失、潜在精细化过程和优化可视保真度的目标，显著提高了神经图像压缩的统计保真度，并在 CLIC2024 验证集上相较于 MS-ILLM 在 FID 指标下实现了 62% 的比特率节省。

Jan, 2024