Jun, 2024

M3LEO:一种多模态、多标签的地球观测数据集集成干涉合成孔径雷达和 RGB 数据

TL;DR卫星遥感技术革命性地改变了我们在迅速发展的世界中解决全球挑战的方式。每天都会通过卫星传感器产生大量的地球观测(EO)数据,但是将这些大规模数据集进行处理以供机器学习流程使用在技术和计算方面具有挑战性。尤其是不同类型的 EO 数据通常托管在各种平台上,在 Python 预处理工具的可用性方面存在差异。此外,数据源和数据分割的空间对齐可能对初学者用户构成重大技术障碍。我们引入了 M3LEO,这是一个多模态、多标签的 EO 数据集,包括了来自 Sentinel-1 的极化、干涉和相干 SAR 数据,以及 Sentinel-2 的 RGB 图像和一套用于模型评估的标签任务。M3LEO 跨越 17.5TB,其中包含了来自六个地理区域的约 1000 万数据片段。该数据集由灵活的 PyTorch Lightning 框架支持,并使用 Hydra 进行配置管理。我们提供了一些工具,以便将任何在流行平台(如 Google Earth Engine)上可用的数据集与我们的框架整合。初步实验验证了我们的数据和框架的实用性,显示出 SAR 图像包含了从 RGB 数据中无法提取的信息。数据可在 huggingface.co/M3LEO 获得,代码可在 github.com/spaceml-org/M3LEO 获取。