Feb, 2024

基于视觉 - 语言模型的图像融合

TL;DR通过利用不同源图像中的显式文本信息来指导图像融合,我们提出了一种名为 FILM 的新型图像融合范式,首次利用 ChatGPT 中的文本信息,通过交叉注意力从源图像中提取关键视觉特征,实现了更深层次的上下文理解,最终生成了融合图像。在红外 - 可见光、医学、多曝光和多焦点图像融合等四个任务中,该范式取得了令人满意的结果。我们还提出了一个基于 ChatGPT 的视觉 - 语言数据集,其中包含了十个图像融合数据集的段落描述,以促进基于视觉 - 语言模型的图像融合的未来研究。代码和数据集将会发布。