Apr, 2024

GEOBIND:通过卫星图片绑定文本、图像和音频

TL;DR远程感知中,我们关注的是对一些地理位置建模的各种方式。我们提出了一种名为 GeoBind 的深度学习模型,可以从地理位置的卫星图像中推断出文本、图像和音频等多个模态。我们的方法不需要包含所有上述模态的单个复杂数据集,而只需要多个卫星图像配对数据。与传统的单模态模型不同,我们的结果表明,GeoBind 是多功能的,并且能够针对给定的卫星图像输入推理出多个模态。