Feb, 2024

在 CLIP 嵌入空间中使用基于语言的丢失函数进行红外和可见光图像融合

TL;DR本文提出了一种基于自然语言表达目标、利用语言表达优势以提高图像融合性能的语言驱动融合模型。通过将相关文本编码为多模态嵌入空间,建立嵌入向量之间的关系表示融合目标和输入图像模态,并通过监督训练导出一种基于语言驱动的损失函数,使实际红外 - 可见图像融合与嵌入式语言驱动融合模型保持一致。实验证明,该方法比现有技术能够获得更好的融合结果。