极端学习图像多模态深度网络压缩

AAAIApr, 2023

极端学习图像多模态深度网络压缩

Multi-Modality Deep Network for Extreme Learned Image Compression

Xuhao Jiang, Weimin Tan, Tian Tan, Bo Yan, Liquan Shen

TL;DR本文提出了一种文字引导图像压缩的多模态机器学习方法，通过使用文本的语义信息来引导图像压缩，以实现更好的压缩性能，包括采用图像 - 文本注意力模块和改进的多模态语义一致性损失函数。实验证明，该方法能够在极低比特率下获得较好的视觉效果，并且即使与最先进的技术相比，其性能也可以相媲美或超越。

Abstract

Image-based single-modality compression learning approaches have demonstrated exceptionally powerful encoding and decoding capabilities in the past few years , but suffer from blur and severe semantics loss at extremely low bitrates. To address this issue, we propose a →

image compression multimodal machine learning text guidance semantic information low bitrates

发现论文，激发创造

利用合作的跨模态侧面信息的知觉图像压缩

本文介绍一种利用文本引导辅助信息的创新深度图像压缩方法，通过预测语义掩码，将文本和图像特征融合，设计了条件生成对抗网络以改进重建图像的感知质量，并在四个数据集和十个图像质量评估指标下证明了该方法在速率感知性能和语义失真方面的优越结果。

Nov, 2023

多模态深度网络用于 JPEG 伪影降噪

本文提出一种基于多模态融合学习的文本引导下的 JPEG 压缩伪影降低方法，通过从全局和局部角度融合图像和文本语义特征，并基于对比学习构建对比损失函数，能够在极低码率下有效降低 JPEG 压缩伪影。经过实验证明，该方法能够获得比现有技术更好的降低伪影效果。

May, 2023

重新审视跨模态检索

本文提出了一种交叉模态检索系统，利用图像和文本编码，实现了同时检索模态的功能，避免了需要为每个模态使用不同网络的缺点。在所使用的知识中，本文是第一篇采用单一网络和融合的图像 - 文本嵌入进行跨模态检索的工作。在 MS-COCO 和 Flickr30K 两个著名的多模态数据集上对该方法进行了评估。

Jul, 2018

资源有限网络中基于多模态相似度估计的图像生成语义传播

该研究提出了一种基于多模态语义信息传输的图像传输方法，通过提取多模态语义信息并传输，接收方使用图像生成模型生成多张图像，并根据语义相似性进行选择。研究探索了评估原始图像和生成图像的语义特征相似性的新指标，并表明所提出的方法可促进通过移动网络进行各种服务应用的照片的传输与利用。

Apr, 2024

基于文本引导编码的神经图像压缩方法：兼顾像素水平和感知保真度

近期在文本引导的图像压缩方面的研究取得了巨大潜力，能够增强重构图像的感知质量，但这些方法往往在像素级保真度方面明显降低，限制了它们的实用性。为了填补这一空白，我们开发了一种新的文本引导图像压缩算法，实现了高感知和像素级保真度，该压缩框架主要通过文本自适应编码和联合图像 - 文本损失的训练来利用文本信息。通过这样做，我们避免了基于文本引导生成模型的解码，这种模型以高度生成多样性著称，并有效地利用了文本的语义信息。各种数据集上的实验结果表明，我们的方法在像素级和感知质量方面均可达到较高水平，无论是人类生成的标题还是机器生成的标题。特别地，在与其他基准方法相比的 LPIPS 方面，我们的方法表现出色，并且在使用更加精心生成的标题时，仍有进一步提高的空间。

Mar, 2024

可压缩且可搜索：学习图像压缩的 AI 原生多模态检索系统

我们提出了一个融合 AI-native 多模式搜索与神经图像压缩的框架，通过使用简单的适配器来提高多模式数据的压缩效率和搜索准确性，实验证明了我们的方法在数字内容、多媒体数据和大数据时代具有可伸缩性和高效性。

Apr, 2024

MoMo: 一种用于文本、图像和多模态表示的共享编码器模型

本文提出了一种自主监督的共享编码器模型，在数据、内存和运行时效率高的同时，在几个视觉、语言和多模式基准测试中取得了强大结果。

Apr, 2023

保持语义领域对稳健跨模态检索的影响

本篇研究提出了一种方法，使用特定的 loss 函数，在保持图像和文本子空间内的语义连贯性的同时鼓励它们之间的语义协同，并改进了基线模型，以实现跨模态检索。

Jul, 2020

MISC：基于大型多模态模型驱动的超低比特率图像语义压缩

该研究提出了一种名为多模态图像语义压缩（MISC）的方法，采用大型多模态模型（LMM）来平衡传统自然感知图像和人工智能生成图像的压缩，实现了一致性和感知结果的优化，节省了 50％的比特率，并在存储和通信领域具有强大的应用潜力。

Feb, 2024

面向内容的学习图像压缩

本文提出一种内容导向的图像压缩方法，该方法采用不同的策略处理不同类型的图像内容，并在实验中展现出与最先进的端到端图像压缩方法或经典方法相媲美的主观结果。

Jul, 2022