Dec, 2023

遥感图像字幕生成中的交互式图像-文本对齐引导

TL;DR基于视觉语言预训练的新型交互式傅里叶变换方法,用于实现远程感知图像字幕生成,通过对遥感图像和文本特征的更好对齐,提高了语义一致性,并在多个数据集上表现出超过其他方法的优越性能。