Oct, 2024
遥感领域的多语种视觉-语言预训练
Multilingual Vision-Language Pre-training for the Remote Sensing Domain
TL;DR本研究解决了遥感领域视觉-语言任务中的多语种输入适应性不足的问题。通过探索多语种CLIP模型的微调以及基于对齐局部和全局表示的自监督方法,提出了一种新的视觉-语言模型,显著提高了多语种图像-文本检索和零样本图像分类的性能。最终,模型RS-M-CLIP在多项视觉-语言任务中取得了最先进的结果,显示了翻译数据的有效性。