文本 + 草图:超低比特率图像压缩
本文提出了一种文字引导图像压缩的多模态机器学习方法,通过使用文本的语义信息来引导图像压缩,以实现更好的压缩性能,包括采用图像 - 文本注意力模块和改进的多模态语义一致性损失函数。实验证明,该方法能够在极低比特率下获得较好的视觉效果,并且即使与最先进的技术相比,其性能也可以相媲美或超越。
Apr, 2023
本文提出一种基于 DCGAN 的压缩图像生成方法,旨在实现对文本描述的压缩视觉数据直接生成,并在压缩形式下实现了最先进的性能。
Oct, 2022
近期在文本引导的图像压缩方面的研究取得了巨大潜力,能够增强重构图像的感知质量,但这些方法往往在像素级保真度方面明显降低,限制了它们的实用性。为了填补这一空白,我们开发了一种新的文本引导图像压缩算法,实现了高感知和像素级保真度,该压缩框架主要通过文本自适应编码和联合图像 - 文本损失的训练来利用文本信息。通过这样做,我们避免了基于文本引导生成模型的解码,这种模型以高度生成多样性著称,并有效地利用了文本的语义信息。各种数据集上的实验结果表明,我们的方法在像素级和感知质量方面均可达到较高水平,无论是人类生成的标题还是机器生成的标题。特别地,在与其他基准方法相比的 LPIPS 方面,我们的方法表现出色,并且在使用更加精心生成的标题时,仍有进一步提高的空间。
Mar, 2024
本文提出了一种图像压缩方法,通过提出一种场景文本图像质量评估模型来保持文本质量,该模型迭代搜索保持高质量文本的最佳压缩图像,客观和主观结果表明该方法优于现有方法,探究把这一方法推广到互联网通信工程中的实际应用。
May, 2023
本文介绍一种利用文本引导辅助信息的创新深度图像压缩方法,通过预测语义掩码,将文本和图像特征融合,设计了条件生成对抗网络以改进重建图像的感知质量,并在四个数据集和十个图像质量评估指标下证明了该方法在速率感知性能和语义失真方面的优越结果。
Nov, 2023
本文探讨了将视觉信息与文本表示相结合的模型,通过 comprehensive ablation studies,我们提出了一种简单但表现突出的架构,相对于其他的 multimodal approaches,在若干基准测试中取得了更好的成绩。同时在使用数量级更少的数据时,也改进了与图像相关的文本数据集的最新成果。
May, 2017
本研究基于生成对抗网络构建了一个图像压缩系统,其中包括编码器、解码器 / 生成器和多尺度鉴别器,并使用全生成式学习压缩目标。模型可合成存储受限的细节,实现在比之前方法失败且出现严重伪影的比特率下,较视觉上令人满意的结果。此外,如果有原始图像的语义标签映射可用,则本方法可以从标签映射中合成出解码后图像的不重要区域,例如街道和树,并相应地减少存储成本。一个用户研究证实,即使使用两倍以上的比特,低比特率下我们的方法都优于现有技术。
Apr, 2018
通过减小模型大小和减少时间步长,我们探索了基于任务的方式压缩 I2I 模型,并将其应用于图像编辑和图像修复任务,取得了满意的输出质量以及模型大小和延迟的显著减少。
Jan, 2024
通过使用迭代扩散模型进行解码,同时结合全局文本图像描述来提供额外的上下文,我们的模型在极低比特率下能够重建逼真的图像,其视觉质量不仅与以往方法相媲美,而且对比特率的依赖性更低。
Oct, 2023
这篇论文首次探索了用于零样本基于草图的图像检索的文本到图像扩散模型,发现其能够无缝地弥合草图与照片之间的差距,利用交叉模态能力和形状倾向性,通过我们的初步研究得到验证。为了有效利用预训练的扩散模型,我们引入了一种简单而有效的策略,着重于两个关键方面:选择最佳特征层和利用视觉和文本提示。通过识别最丰富信息且最适合特定检索要求(分类级别或细粒度)的层,然后使用视觉和文本提示来引导模型的特征提取过程,使其生成更具辨别力和相关上下文的交叉模态表示。在几个基准数据集上进行的大量实验证实了显著的性能提升。
Mar, 2024