基于视觉 - 语言模型的图像融合 | BriefGPT

Feb, 2024

基于视觉 - 语言模型的图像融合

Image Fusion via Vision-Language Model

Zixiang Zhao, Lilun Deng, Haowen Bai, Yukun Cui, Zhipeng Zhang...

TL;DR通过利用不同源图像中的显式文本信息来指导图像融合，我们提出了一种名为 FILM 的新型图像融合范式，首次利用 ChatGPT 中的文本信息，通过交叉注意力从源图像中提取关键视觉特征，实现了更深层次的上下文理解，最终生成了融合图像。在红外 - 可见光、医学、多曝光和多焦点图像融合等四个任务中，该范式取得了令人满意的结果。我们还提出了一个基于 ChatGPT 的视觉 - 语言数据集，其中包含了十个图像融合数据集的段落描述，以促进基于视觉 - 语言模型的图像融合的未来研究。代码和数据集将会发布。

Abstract

image fusion integrates essential information from multiple source images into a single composite, emphasizing the highlighting structure and textures, and refining imperfect areas. Existing methods predominantly focus on pixel-level and semantic →

image fusion vision-language model textual information visual features contextual understanding

发现论文，激发创造

TextFusion: 揭秘文本语义在可控图像融合中的力量

利用高级语义，通过视觉 - 语言模型建立文本与图像信号之间的粗粒度关联机制，并在变换器网络中嵌入仿射融合单元以在特征级别上融合文本和图像模态，提出了一种以文本为导向的融合方法，并释放了一个文本注释的图像融合数据集 IVT 来促进其实施和在研究社区的采用。大量实验证明我们的方法（TextFusion）在传统的基于外观的融合方法上始终表现优异。

Dec, 2023

从文本到像素：一种针对红外和可见光图像融合的上下文感知语义协同解决方案

本研究提出了一种基于文本引导的多模态图像融合方法，利用文本描述的高级语义结合红外和可见光图像的语义信息，为目标检测任务提供了更准确和鲁棒的结果。通过使用代码本来增强对融合动态的简明直观表达，并通过双层优化策略同时优化融合和检测问题，本研究取得了与现有方法相比更高的检测平均精度和视觉上优越的融合结果。

Dec, 2023

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020

在 CLIP 嵌入空间中使用基于语言的丢失函数进行红外和可见光图像融合

本文提出了一种基于自然语言表达目标、利用语言表达优势以提高图像融合性能的语言驱动融合模型。通过将相关文本编码为多模态嵌入空间，建立嵌入向量之间的关系表示融合目标和输入图像模态，并通过监督训练导出一种基于语言驱动的损失函数，使实际红外 - 可见图像融合与嵌入式语言驱动融合模型保持一致。实验证明，该方法比现有技术能够获得更好的融合结果。

Feb, 2024

基于语义文本指导的降级感知与交互图像融合技术

借助语义文本引导的图像融合模型，解决了低质量原始图像的退化问题和多重主观客观需求的非交互性。通过文本语义编码和语义交互融合解码器，实现多模式图像和信息的融合，并在图像融合性能和退化处理方面具有明显优势。

Mar, 2024

一种中间融合的 ViT 在扩散模型中实现了高效的文本 - 图像对齐

通过使用中间融合机制，我们在文本生成图像任务上获得了更高的 CLIP 得分，更低的 FID，与早期融合相比减少了 20% 的运算量，并且训练速度提高了 50%。

Mar, 2024

多模视觉监督对语言有益吗？

本文探讨和研究使用视觉监督学习的语言表示相对于常规语言表示对自然语言理解和常识推理基准测试的优劣，并根据多个图文模型和视频文本模型的实验结果发现，常规语言表示在多数任务中表现更好，揭示了视觉 - 语言模型当前的缺陷。

Feb, 2023

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023

通过结合视觉和语言进行细粒度图像分类

该论文提出了一种结合视觉和语言的两流模型，通过深度卷积神经网络从原始图像信息中学习深度表示，并利用自然语言描述来编码区分子类的显著视觉方面，从而实现更好的分类精度。

Apr, 2017

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022