一种针对多模态模型的自适应微调算法：遥感中高质量数据集的自我优化分类与选择

Sep, 2024

一种针对多模态模型的自适应微调算法：遥感中高质量数据集的自我优化分类与选择

A Novel Adaptive Fine-Tuning Algorithm for Multimodal Models: Self-Optimizing Classification and Selection of High-Quality Datasets in Remote Sensing

HTML

PDF

Yi Ren, Tianyi Zhang, Zhixiong Han, Weibin Li, Zhiyang Wang...

TL;DR本研究解决了多模态大模型训练中数据选择的效率问题，提出了一种自适应微调算法，该算法首先通过MiniBatchKMeans算法对数据进行自动聚类，再基于数据的泛化度选择高质量数据进行训练。研究结果表明，该算法在多项遥感评估指标上显著优于现有最佳基准，并将训练时间缩短了68.2%。

Abstract

We propose an Adaptive Fine-Tuning algorithm for multimodal large models. The core steps of this algorithm involve two stages of truncation. First, the vast amount of data is projected into a semantic vector space, and the MiniBatchKMeans algorithm is used for automated clustering. Thi

发现论文，激发创造

用于土地覆盖分类的多模态遥感基准数据集和共享特征学习模型

本文提出了一个用于遥感数据的前沿技术——共享和特定特征学习（S2FL）模型。该模型不仅可以将多模式遥感数据分解为模态共享和模态特定组件，更可以在陆地覆盖分类等多方面任务上发挥有效作用，达到其前沿性和先进性的地位。

May, 2021

GeoChat: 用于遥感的基于大规模视觉语言模型的实体化系统

GeoChat是第一个多功能的遥感视觉语言模型，它具备高分辨率遥感图像的多任务对话能力，并能将对象视觉上地与其空间坐标相关联，通过扩展现有多样的遥感数据集中的图像-文本对生成了一个新的领域特定的多模态指令跟随数据集，成功解决了现有模型在遥感领域的局限性，并在各个遥感任务上展示了强大的零样本性能。

Nov, 2023

SkyScript：遥感视觉语言大规模和语义多样性数据集

使用地理坐标将无标签的遥感图像与OpenStreetMap中的丰富语义相连接，构建了一套遥感图像的综合视觉-语言数据集SkyScript，包含260万个图像-文本对，覆盖29K个不同的语义标签。通过在此数据集上进行持续预训练，我们获得了一个视觉-语言模型，相较于基准模型，在七个基准数据集上实现了6.2％的平均准确率提升，并展示了对于细粒度对象属性分类和跨模态检索的零样本迁移能力。希望该数据集可以支持遥感领域中各种多模态任务的视觉-语言模型的进展，如开放词汇分类、检索、字幕生成和文本到图像合成。

Dec, 2023

ChatEarthNet: 用于遥感的全球规模高质量图像-文本数据集

我们提供了一个全球范围、高质量、多样性广泛、描述详细的图像-文本数据集ChatEarthNet，其中包含由ChatGPT-3.5生成的163,488个图像-文本对及额外的由ChatGPT-4V生成的10,000个图像-文本对，这对于远程感知的视觉语言基础模型的训练和大型视觉语言模型的评估具有重要潜力，并将供公众使用。

Feb, 2024

AMMUNet: 遥感图像分割的多尺度注意力地图融合

AMMUNet是一种基于UNet的框架，通过多尺度注意力图合并实现全局建模，用于精确的遥感语义分割，并取得了优越的性能。

Apr, 2024

远程感知中高效的谐调迁移学习与模态对齐

通过采用“Harmonized Transfer Learning and Modality Alignment (HarMA)”方法，本研究在遥感领域中实现了优异的性能，同时最小化了训练开销，通过满足任务约束、模态对齐和单模态统一对齐三个目标，而不需要外部数据进行训练。

Apr, 2024

MGIMM：面向属性引导的遥感影像细节描述的多粒度指令多模态模型

本文提出了一种属性引导的多粒度指令多模型（MGIMM），用于遥感图像的详细描述，并通过在区域级别指导调整实现了多模型的一致性学习。通过多颗粒度的视觉特征，MGIMM可以充分感知区域级和全局图像信息，利用大语言模型对遥感图像进行全面的描述。实验证明了MGIMM的区域-属性引导学习方法的有效性。

Jun, 2024

RS-GPT4V：一份用于遥感图像理解的统一多模态指令跟随数据集

远程传感图像智能理解模型正在经历一个深刻的新范式转变，即从学习域模型的范式转变为先学习预训练的通用基础模型，然后再进行自适应域模型的范式。在新的自适应域模型范式下，过去十年中已取得远程传感图像智能理解进展的旧数据集不再适用于全新任务。我们认为必须设计一个具备以下特征的新数据集来轻化任务：1)泛化性：训练模型学习多个任务之间的共享知识，并适应不同的任务；2)理解复杂场景：训练模型理解感兴趣对象的细粒度属性，并能用自然语言描述场景；3)推理能力：训练模型能够实现高层次的视觉推理。本文设计了一个由GPT-4V和现有数据集共同创建的高质量、多样化、统一的多模式指令跟踪数据集，我们称之为RS-GPT4V。为了实现泛化性，我们使用了由GPT-4V通过指令跟踪引导推导出来的（问题，答案）对来统一诸如字幕和定位等任务；为了实现复杂场景，我们提出了一种具有局部策略的分层指令描述方式，描述了对象的细粒度属性和它们的空间关系，并具有全局策略将所有局部信息集成以生成详细的指令描述；为了实现推理能力，我们设计了多轮问答对来为模型提供推理能力。实证结果表明，通过RS-GPT4V微调的多模态大语言模型能够描述细粒度信息。数据集可在此网址获取：https://example.com

Jun, 2024

ChangeChat：一种通过多模态指令调优进行遥感变化分析的互动模型

本研究解决了传统遥感变化检测无法上下文化像素级变化及缺乏交互式用户查询的问题。提出的ChangeChat模型是首个专为遥感变化分析设计的双时相视觉-语言模型，利用多模态指令调优来处理复杂查询。实验结果表明，ChangeChat在特定任务上表现优于当前最先进的方法，并在用户交互方面具有显著优势。

Sep, 2024

CDChat：用于遥感变化描述的大型多模态模型

本研究针对现有大型多模态模型在遥感图像内容描述中的不足，提出了一种新的变化描述指令数据集。这种数据集能够有效微调模型，从而提升对双时相遥感图像变化的描述能力，实验表明经过微调的LLaVA-1.5模型在该任务上表现显著提升。

Sep, 2024