Oct, 2024

文本调制扩散模型的交互式多模态图像融合框架

TL;DR该研究针对现有多模态图像融合方法未能有效解决源图像的复合降质问题,提出了一种基于文本调制扩散模型的交互式多模态图像融合框架Text-DiFuse。该框架通过将特征级信息整合到扩散过程中,首次深入有效地处理图像融合中的复合降质,并通过文本控制提高融合性能,突出前景对象。实验表明,Text-DiFuse在复杂降质场景下实现了最先进的融合性能,同时在语义分割实验中验证了其显著的语义性能提升。