Mar, 2025

改善遥感视觉语言模型零样本泛化的方案

TL;DR本研究针对遥感领域视觉语言模型在数据集多样性不足的挑战,提出了两种新颖的图像-文本配对数据集,旨在提高模型的零样本泛化能力。通过预训练MaMMUT视觉语言模型,研究展示了其在知名公共基准上的优秀跨模态检索性能,并引入了一种新的平滑注意力操作,以增强模型的定位能力。