Major TOM：面向地球观测的可扩展数据集

Feb, 2024

Major TOM：面向地球观测的可扩展数据集

Major TOM: Expandable Datasets for Earth Observation

Alistair Francis, Mikolaj Czerkawski

TL;DR提出终端观察元集 (Major TOM) 作为一种可扩展的框架，该框架包含基于一组网格点的地理索引系统和允许合并具有不同来源的多个数据集的元数据结构。此外，还提供了一个名为 MajorTOM-Core 的大型开放访问数据集，该数据集涵盖了地球陆地表面的绝大部分，为研究社区提供了一个有用的资源和未来 Major TOM 生态系统的模板。

Abstract

deep learning models are increasingly data-hungry, requiring significant resources to collect and compile the datasets needed to train them, with Earth Observation (EO) models being no exception. However, the lan

deep learning models earth observation datasets major tom metadata structure

发现论文，激发创造

更多数据无出其右 - 地球观测深度学习数据集

机器学习、深度神经网络、人工智能、地球观测和数据集是这篇研究论文的主要关键词，通过文章的回顾和资源描述，为未来发展提供了展望。

Oct, 2023

EarthNets：赋能地球观测中的人工智能

本文综述了 400 多个公共数据集，包括土地利用 / 覆盖、变化 / 灾害监测、场景理解、农业、气候变化和天气预报。通过对数据集进行系统分析，我们基于其属性提出了评估标准，并发布了用于评估深度学习方法的新平台 EarthNets，从而弥合了遥感和机器学习社区之间的差距。

Oct, 2022

用于 Landsat 图像的数据集和基础模型 SSL4EO-L

本文介绍了 SSL4EO-L 数据集的设计，使用该数据集现代化并重新发布了 L7 Irish 和 L8 Biome 云检测数据集，并推出了 Landsats 4-5 TM 和 Landsat7 ETM+ SR 的 ML 基准数据集，使用 SSL4EO-L 预训练了 Landsat 影像的基础模型，并在多个语义分割任务上评估了它们的性能。

Jun, 2023

PhilEO Bench: 评估地理空间基础模型

本研究介绍了 PhilEO Bench，这是一个用于评估遥感基础模型的创新评估框架，其中包括一个测试平台和一个包含建筑密度估计、道路分割和土地覆盖分类三个下游任务的 400GB Sentinel-2 数据集。通过使用该框架对 Prithvi 和 SatMAE 等不同基础模型进行多个 n-shot 和收敛率的实验评估。

Jan, 2024

深层极端立方体：整合地球系统时空数据以评估气候极端事件的影响

气候极端事件对陆地生态系统的影响预测需要用到结构化、高质量和经过筛选的分析准备数据集。本研究致力于构建 DeepExtremeCubes 数据库，该数据库专门设计用于分析复合热浪和干旱极端事件对持续自然植被的影响，包括 40,000 个地理采样的小数据块，每个块都包含 Sentinel-2 L2A 影像、ERA5-Land 变量、从 2016 年到 2022 年的极端事件数据块，以及辅助土地覆盖和地形地图。该数据库的建设旨在提高数据获取和处理的效率，增强科学的可重复性，并促进对生物圈动态在复合极端事件下的预测研究。

Jun, 2024

M3LEO：一种多模态、多标签的地球观测数据集集成干涉合成孔径雷达和 RGB 数据

卫星遥感技术革命性地改变了我们在迅速发展的世界中解决全球挑战的方式。每天都会通过卫星传感器产生大量的地球观测（EO）数据，但是将这些大规模数据集进行处理以供机器学习流程使用在技术和计算方面具有挑战性。尤其是不同类型的 EO 数据通常托管在各种平台上，在 Python 预处理工具的可用性方面存在差异。此外，数据源和数据分割的空间对齐可能对初学者用户构成重大技术障碍。我们引入了 M3LEO，这是一个多模态、多标签的 EO 数据集，包括了来自 Sentinel-1 的极化、干涉和相干 SAR 数据，以及 Sentinel-2 的 RGB 图像和一套用于模型评估的标签任务。M3LEO 跨越 17.5TB，其中包含了来自六个地理区域的约 1000 万数据片段。该数据集由灵活的 PyTorch Lightning 框架支持，并使用 Hydra 进行配置管理。我们提供了一些工具，以便将任何在流行平台（如 Google Earth Engine）上可用的数据集与我们的框架整合。初步实验验证了我们的数据和框架的实用性，显示出 SAR 图像包含了从 RGB 数据中无法提取的信息。数据可在 huggingface.co/M3LEO 获得，代码可在 github.com/spaceml-org/M3LEO 获取。

Jun, 2024

利用地球观测和 OpenStreetMap 数据进行联合学习，以获取更快、更好的语义地图

本文探讨在地球观测图像语义标注中使用 OpenStreetMap 数据的潜力。作者在 ISPRS Potsdam 和 DFC2017 两个公共数据集上使用不同的架构并进行了实验，结果发现使用 OpenStreetMap 数据能够显著提高模型的精度和收敛速度，尤其是使用融合的架构和分层的细分。

May, 2017

OmniSat：地球观测自监督模态融合

利用地球观测数据的多模态性质，提出了一种无监督多模态学习方法 OmniSat，可用于改进森林学、土地覆盖分类和农作物映射等任务，并在半监督和全监督设置下获得更好的性能。

Apr, 2024

EarthPT：地球观测的基础模型

EarthPT 是一个地球观测预训练的变压器模型，通过自回归自监督方式训练了一个 7 亿参数、针对地球观测应用场景的模型。我们展示了 EarthPT 是一个有效的预测器，可以准确预测未来的像素级表面反射率在 400-2300nm 范围内变化。此外，通过 EarthPT 学习的嵌入具有语义上有意义的信息，可用于下游任务，如高精度、动态的土地利用分类。

Sep, 2023

DynamicEarthNet：语义变化分割日常多光谱卫星数据集

这篇文章介绍了一种名为 DynamicEarthNet 的数据集，其中包含每日地球观测数据和 7 种土地利用和覆盖类别的高质量标签，提供了研究土地利用演变方面的极其有用的资源。此外，文章还提出了一个新的评估指标 SCS 以应对时间序列语义变化分割中的特定挑战，并比较了几个半监督学习和时空学习的基线方法。

Mar, 2022