Dec, 2023

TextFusion: 揭秘文本语义在可控图像融合中的力量

TL;DR利用高级语义,通过视觉 - 语言模型建立文本与图像信号之间的粗粒度关联机制,并在变换器网络中嵌入仿射融合单元以在特征级别上融合文本和图像模态,提出了一种以文本为导向的融合方法,并释放了一个文本注释的图像融合数据集 IVT 来促进其实施和在研究社区的采用。大量实验证明我们的方法(TextFusion)在传统的基于外观的融合方法上始终表现优异。