Oct, 2024

遥感领域的多语种视觉-语言预训练

TL;DR本研究解决了遥感领域视觉-语言任务中的多语种输入适应性不足的问题。通过探索多语种CLIP模型的微调以及基于对齐局部和全局表示的自监督方法,提出了一种新的视觉-语言模型,显著提高了多语种图像-文本检索和零样本图像分类的性能。最终,模型RS-M-CLIP在多项视觉-语言任务中取得了最先进的结果,显示了翻译数据的有效性。