DiffusionSat 是迄今为止最大的生成基础模型,使用公开可获得的大型高分辨率遥感数据集进行训练,实现对多个生成任务的解决,包括时间生成、多光谱输入的超分辨率和修复。同时它在卫星图像生成方面优于以前的最先进方法,也是第一个针对卫星图像的大规模生成基础模型。
Dec, 2023
利用 RSICD 數據集訓練了具有 0.2 損失的 Stable Diffusion 模型,並通過合成數據集和定制遙感 LLM 進行了 Land Use Land Classification 任務,但由於標題質量和模型表現的挑戰,生成的圖像和數據集的質量有所不足。
May, 2024
通过利用预训练的生成模型作为先验,结合结构和语义线索,以及提取感知一致的传感器特性并模拟其分布,从而提高遥感影像的超分辨率。实验证明了该方法的卓越性能和广泛适用性。
在场景文本图像超分辨率的研究中,通过引入一种生成模型 RGDiffSR 和一种去噪网络 RGDN,本文通过语义引导实现了场景文本图像的高保真度图像增强,从而在文本识别准确度和图像保真度方面都取得了优于现有方法的结果。
Nov, 2023
提出了一种专门针对遥感图像生成的扩散建模框架 CRS-Diff,利用扩散模型的内在优势并整合先进的控制机制,以确保图像不仅在视觉上清晰,而且充满地理和时间信息。综合评估证明,CRS-Diff 在图像质量和多样性方面相对于之前的方法具有卓越的生成能力。
Mar, 2024
我们提出了一种基于扩散模型的文本图像超分辨率恢复方法(DiffTSR),该方法可以同时恢复具有更准确文本结构和更逼真外观的文本图像。
提出了一种基于扩散的场景文本图像超分辨率的框架 TextDiff,包含两个模块:文本增强模块 (TEM) 和基于掩模的残差扩散模块 (MRD)。实验证明,TextDiff 在公共基准数据集上实现了最先进的性能,同时提高了场景文本图像的可读性。
Aug, 2023
遥感图像变化标题生成(RSICC)旨在生成人类化语言,描述双时相遥感图像对之间的语义变化。我们提出了一种概率扩散模型来解决传统变化标题生成任务中的像素级差异对地形变化定位的影响,并在 LEVIR-CC 数据集上进行了广泛实验,展示了我们 Diffusion-RSCC 的有效性及其各个组成部分。
通过引入文本提示到图像超分辨率中,使用预训练语言模型和扩散模型,实现了优秀的合成和真实图像上的结果。
利用扩散模型与神经渲染技术,提出了一种新颖的直接生成三维场景的方法,该方法能够从卫星图像中生成逼真的街景图像序列和跨视角城市场景。
Jan, 2024