在 CLIP 嵌入空间中使用基于语言的丢失函数进行红外和可见光图像融合

Feb, 2024

在 CLIP 嵌入空间中使用基于语言的丢失函数进行红外和可见光图像融合

Infrared and visible Image Fusion with Language-driven Loss in CLIP Embedding Space

Yuhao Wang, Lingjuan Miao, Zhiqiang Zhou, Lei Zhang, Yajun Qiao

TL;DR本文提出了一种基于自然语言表达目标、利用语言表达优势以提高图像融合性能的语言驱动融合模型。通过将相关文本编码为多模态嵌入空间，建立嵌入向量之间的关系表示融合目标和输入图像模态，并通过监督训练导出一种基于语言驱动的损失函数，使实际红外 - 可见图像融合与嵌入式语言驱动融合模型保持一致。实验证明，该方法比现有技术能够获得更好的融合结果。

Abstract

infrared-visible image fusion (IVIF) has attracted much attention owing to the highly-complementary properties of the two image modalities. Due to the lack of ground-truth fused images, the fusion output of current deep

infrared-visible image fusion deep-learning loss functions language-driven fusion model supervised training

发现论文，激发创造

基于空间 - 通道注意机制的红外与可见光图像融合

通过使用多个卷积核和注意力机制，我们提出了 AMFusionNet，一种创新的红外和可见图像融合方法，通过吸收红外图像的热力细节和可见源的纹理特征，我们的方法生成了丰富信息的图像。实验证明，我们的方法在质量和数量上优于现有的算法，并且公开可用数据集上的性能指标也显示了显著的改进。

Aug, 2023

基于视觉 - 语言模型的图像融合

通过利用不同源图像中的显式文本信息来指导图像融合，我们提出了一种名为 FILM 的新型图像融合范式，首次利用 ChatGPT 中的文本信息，通过交叉注意力从源图像中提取关键视觉特征，实现了更深层次的上下文理解，最终生成了融合图像。在红外 - 可见光、医学、多曝光和多焦点图像融合等四个任务中，该范式取得了令人满意的结果。我们还提出了一个基于 ChatGPT 的视觉 - 语言数据集，其中包含了十个图像融合数据集的段落描述，以促进基于视觉 - 语言模型的图像融合的未来研究。代码和数据集将会发布。

Feb, 2024

基于语义文本指导的降级感知与交互图像融合技术

借助语义文本引导的图像融合模型，解决了低质量原始图像的退化问题和多重主观客观需求的非交互性。通过文本语义编码和语义交互融合解码器，实现多模式图像和信息的融合，并在图像融合性能和退化处理方面具有明显优势。

Mar, 2024

C-RITNet：基于红外和可见光图像融合的无需补充信息挖掘

借助互补冗余信息传输网络（C-RITNet），本论文提出了一个能够提取和整合两种不同模态中的互补信息以生成高质量融合图像的方法，通过互信息传输模块（MIT）、冗余信息获取以源图像为监督的模块（RIASSI）和结构信息保留模块（SIP），能够解决互补信息提取和稳定边缘结构信息的挑战。

Sep, 2023

从文本到像素：一种针对红外和可见光图像融合的上下文感知语义协同解决方案

本研究提出了一种基于文本引导的多模态图像融合方法，利用文本描述的高级语义结合红外和可见光图像的语义信息，为目标检测任务提供了更准确和鲁棒的结果。通过使用代码本来增强对融合动态的简明直观表达，并通过双层优化策略同时优化融合和检测问题，本研究取得了与现有方法相比更高的检测平均精度和视觉上优越的融合结果。

Dec, 2023

一种中间融合的 ViT 在扩散模型中实现了高效的文本 - 图像对齐

通过使用中间融合机制，我们在文本生成图像任务上获得了更高的 CLIP 得分，更低的 FID，与早期融合相比减少了 20% 的运算量，并且训练速度提高了 50%。

Mar, 2024

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023

联合红外可见光图像融合和显着性目标检测的交互增强范式

本文提出一种基于红外和可见光图像的交互式多任务范式，通过特征筛选的融合子网和融合引导的交叉互补 SOD 子网相结合，进行物体定位和探测，同时提出交互式循环学习策略，以实现这两个任务的互相增强，取得了显著的效果。

May, 2023

IAIFNet：一种光照感知的红外和可见光图像融合网络

提出了一种考虑低光环境照明条件的光学和红外图像融合网络，利用自适应差分融合模块和显著目标感知模块，将提升过照明的红外和可见图像的显著特征有效地融合，生成高质量的融合图像，并验证其优于五种最先进的红外和可见图像融合方法。

Sep, 2023

图像 - 语言学习的联合自适应表示

通过联合学习紧凑的视觉和语言表示形式以及使用自适应的、迭代融合多模态特征的方法来实现图像 - 语言学习，并增加数据效率和降低计算复杂度。该方法相比于当前流行的图像 - 语言模型而言，可降低 33% 的浮点数操作次数，同时提高性能，而只需要较少的数据和计算资源，这比使用更大的数据集和 FLOPs 几乎是 2-20 倍的最新模型更为优秀。

May, 2023