极端学习图像多模态深度网络压缩
本文介绍一种利用文本引导辅助信息的创新深度图像压缩方法,通过预测语义掩码,将文本和图像特征融合,设计了条件生成对抗网络以改进重建图像的感知质量,并在四个数据集和十个图像质量评估指标下证明了该方法在速率感知性能和语义失真方面的优越结果。
Nov, 2023
本文提出一种基于多模态融合学习的文本引导下的 JPEG 压缩伪影降低方法,通过从全局和局部角度融合图像和文本语义特征,并基于对比学习构建对比损失函数,能够在极低码率下有效降低 JPEG 压缩伪影。经过实验证明,该方法能够获得比现有技术更好的降低伪影效果。
May, 2023
本文提出了一种交叉模态检索系统,利用图像和文本编码,实现了同时检索模态的功能,避免了需要为每个模态使用不同网络的缺点。在所使用的知识中,本文是第一篇采用单一网络和融合的图像 - 文本嵌入进行跨模态检索的工作。在 MS-COCO 和 Flickr30K 两个著名的多模态数据集上对该方法进行了评估。
Jul, 2018
该研究提出了一种基于多模态语义信息传输的图像传输方法,通过提取多模态语义信息并传输,接收方使用图像生成模型生成多张图像,并根据语义相似性进行选择。研究探索了评估原始图像和生成图像的语义特征相似性的新指标,并表明所提出的方法可促进通过移动网络进行各种服务应用的照片的传输与利用。
Apr, 2024
近期在文本引导的图像压缩方面的研究取得了巨大潜力,能够增强重构图像的感知质量,但这些方法往往在像素级保真度方面明显降低,限制了它们的实用性。为了填补这一空白,我们开发了一种新的文本引导图像压缩算法,实现了高感知和像素级保真度,该压缩框架主要通过文本自适应编码和联合图像 - 文本损失的训练来利用文本信息。通过这样做,我们避免了基于文本引导生成模型的解码,这种模型以高度生成多样性著称,并有效地利用了文本的语义信息。各种数据集上的实验结果表明,我们的方法在像素级和感知质量方面均可达到较高水平,无论是人类生成的标题还是机器生成的标题。特别地,在与其他基准方法相比的 LPIPS 方面,我们的方法表现出色,并且在使用更加精心生成的标题时,仍有进一步提高的空间。
Mar, 2024
我们提出了一个融合 AI-native 多模式搜索与神经图像压缩的框架,通过使用简单的适配器来提高多模式数据的压缩效率和搜索准确性,实验证明了我们的方法在数字内容、多媒体数据和大数据时代具有可伸缩性和高效性。
Apr, 2024
本文提出了一种自主监督的共享编码器模型,在数据、内存和运行时效率高的同时,在几个视觉、语言和多模式基准测试中取得了强大结果。
Apr, 2023
本篇研究提出了一种方法,使用特定的 loss 函数,在保持图像和文本子空间内的语义连贯性的同时鼓励它们之间的语义协同,并改进了基线模型,以实现跨模态检索。
Jul, 2020
该研究提出了一种名为多模态图像语义压缩(MISC)的方法,采用大型多模态模型(LMM)来平衡传统自然感知图像和人工智能生成图像的压缩,实现了一致性和感知结果的优化,节省了 50%的比特率,并在存储和通信领域具有强大的应用潜力。
Feb, 2024