Oct, 2024

MMM-RS:一种用于文本到图像生成的多模态、多GSD、多场景遥感数据集及基准

TL;DR本研究解决了生成多样化遥感图像中的挑战,尤其在尺度和视角方面与普通图像的显著差异。作者提出了一种多模态、多GSD、多场景的遥感数据集(MMM-RS)及基准,通过大规模预训练的视觉语言模型生成文本提示,构建了约210万对信息丰富的文本图像对。实验结果表明,MMM-RS数据集可以有效支持扩散模型生成多样化的遥感图像,适用于不同的模态、场景和气候条件。