基于语义文本指导的降级感知与交互图像融合技术
利用高级语义,通过视觉 - 语言模型建立文本与图像信号之间的粗粒度关联机制,并在变换器网络中嵌入仿射融合单元以在特征级别上融合文本和图像模态,提出了一种以文本为导向的融合方法,并释放了一个文本注释的图像融合数据集 IVT 来促进其实施和在研究社区的采用。大量实验证明我们的方法(TextFusion)在传统的基于外观的融合方法上始终表现优异。
Dec, 2023
本研究提出了一种基于文本引导的多模态图像融合方法,利用文本描述的高级语义结合红外和可见光图像的语义信息,为目标检测任务提供了更准确和鲁棒的结果。通过使用代码本来增强对融合动态的简明直观表达,并通过双层优化策略同时优化融合和检测问题,本研究取得了与现有方法相比更高的检测平均精度和视觉上优越的融合结果。
Dec, 2023
通过利用不同源图像中的显式文本信息来指导图像融合,我们提出了一种名为 FILM 的新型图像融合范式,首次利用 ChatGPT 中的文本信息,通过交叉注意力从源图像中提取关键视觉特征,实现了更深层次的上下文理解,最终生成了融合图像。在红外 - 可见光、医学、多曝光和多焦点图像融合等四个任务中,该范式取得了令人满意的结果。我们还提出了一个基于 ChatGPT 的视觉 - 语言数据集,其中包含了十个图像融合数据集的段落描述,以促进基于视觉 - 语言模型的图像融合的未来研究。代码和数据集将会发布。
Feb, 2024
本文提出了一种基于自然语言表达目标、利用语言表达优势以提高图像融合性能的语言驱动融合模型。通过将相关文本编码为多模态嵌入空间,建立嵌入向量之间的关系表示融合目标和输入图像模态,并通过监督训练导出一种基于语言驱动的损失函数,使实际红外 - 可见图像融合与嵌入式语言驱动融合模型保持一致。实验证明,该方法比现有技术能够获得更好的融合结果。
Feb, 2024
通过使用中间融合机制,我们在文本生成图像任务上获得了更高的 CLIP 得分,更低的 FID,与早期融合相比减少了 20% 的运算量,并且训练速度提高了 50%。
Mar, 2024
本文提出了一种利用 Image Information Removal 模块来精准地去除原始图像中与颜色和纹理相关的信息,以更好地保存文本不相关内容并避免相同映射问题,从而实现文本到图像编辑的方法。我们的方法在三个基准数据集上达到了最佳的可编辑性 - 保真度的平衡,并且我们的编辑图像比 COCO 上的之前的艺术作品更受注释者的欢迎。
May, 2023
提出了一种感知感知融合框架来提高对抗环境中的分割鲁棒性,通过系统分析图像融合的组成部分与对抗扰动下的分割鲁棒性的相关性,并提出一种基于分解结构的协同设计方法来平衡标准准确率和鲁棒性,以及一种自适应学习策略来提高图像融合的参数鲁棒性。实验结果表明,与先进竞争对手相比,在对抗场景中分割的 mIOU 提高了 15.3%。
Aug, 2023
开发了一个基于文本的图像处理框架(TIP),可以通过自然语言作为用户友好界面来控制图像恢复过程,并通过语言的定量规范实现细粒度的指导,以达到更好的恢复性能。
Dec, 2023
本文介绍一种利用文本引导辅助信息的创新深度图像压缩方法,通过预测语义掩码,将文本和图像特征融合,设计了条件生成对抗网络以改进重建图像的感知质量,并在四个数据集和十个图像质量评估指标下证明了该方法在速率感知性能和语义失真方面的优越结果。
Nov, 2023
本研究提出了一种基于复杂文本描述的图像编辑方法,在文本相关部分对输入的图像进行修改,并引入用户界面对生成的图像进行交互式重新修改,实现实时交互、灵活和准确的图像操作。
Nov, 2022