Sep, 2024

在没有人工标注的情况下推动视觉-语言模型在遥感中的极限

TL;DR本研究解决了遥感领域视觉-语言数据集不足的问题。通过引入图像解码机器学习模型,研究者能够无需人工标注收集约960万对视觉-语言数据集。结果表明,该模型在零样本分类、语义定位和图像-文本检索等下游任务中优于未使用公开数据集的对手,展示了显著的效能提升。