Popeye: 面向遥感图像的多源船舶检测的统一视觉语言模型

Mar, 2024

Popeye: 面向遥感图像的多源船舶检测的统一视觉语言模型

Popeye: A Unified Visual-Language Model for Multi-Source Ship Detection from Remote Sensing Imagery

Wei Zhang, Miaoxin Cai, Tong Zhang, Guoqiang Lei, Yin Zhuang...

TL;DR提出了一种名为Popeye的新型统一视觉-语言模型，用于从遥感图像中进行多源船只检测，通过设计一种新的图像-指令-答案方式和跨模态图像解释方法，实现了各种船只检测方式的统一标签，同时利用知识迁移机制和分段任意模型(SAM)来提高检测性能，实验证明该方法在零样本多源船只检测方面优于当前的专家模型、开放词汇模型和其他视觉-语言模型。

Abstract

ship detection needs to identify ship locations from remote sensing (RS) scenes. However, due to different imaging payloads, various appearances of ships, and complicated background interference from the bird's e

发现论文，激发创造

基于多尺度旋转稠密特征金字塔网络的复杂场景Google地球遥感图像自动船舶检测

本文提出了一种名为旋转密集特征金字塔网络（R-DFPN）的框架，使用DFPN解决平凡特征图宽度小的问题，同时还设计了旋转锚策略和多尺度ROI对齐等方法，大大提高了船舶检测的性能及效果。

Jun, 2018

多任务旋转区域卷积神经网络用于任意方向船舶的位置检测和方向预测

该论文提出了一种基于多任务旋转区域卷积神经网络的全新检测模型，通过密集特征金字塔网络、自适应兴趣区域对齐、旋转边界框回归、驶向预测和旋转非极大值抑制等五个连续部分解决了应用场景的复杂性、检测区域的冗余性和密集船只检测的困难等主要障碍。在旋转检测的基础上，通过预测可以找到船只的泊位和驶向，并通过SRSS进行了详细的评估，证明该检测方法具有竞争性的性能。

Jun, 2018

基于光学遥感图像的小型船只检测的高阶空间交互增强轻量级模型

本文提出一种基于光学遥感图像的小船检测轻量级框架HSI-ShipDetectionNet，通过高阶空间交互和轻量级混合注意力模块，实现了对资源受限平台（如卫星和无人机）的部署，模型在公共Kaggle海洋船只检测数据集上的表现优于其他小物体检测模型、轻量级检测模型和船只检测模型。

Apr, 2023

遥感中的视觉语言模型：当前进展与未来趋势

本文针对远程感知领域，综述图像与文字有关的任务及相关研究领域中，采用视觉语言模型的最新进展和挑战，以及未来的发展方向。

May, 2023

EarthGPT：遥感领域多感知器图像理解的通用多模态大型语言模型

提出了一个先驱性的多模态大型语言模型（MLLM）EarthGPT，该模型集成了各种多传感器遥感图像解释任务，通过构建大规模的多传感器多模态遥感指令追踪数据集MMRS，解决了MLLM在遥感领域缺乏专业知识的问题，并在各种遥感图像解释任务上展现出其卓越的性能，并为开放式推理任务提供了一种多功能的范例。

Jan, 2024

SISP：一种用于全色卫星图像船只细粒度实例分割的基准数据集

通过建立船舶实例分割的基准数据集SISP，本文介绍了一种基于卫星图像的动态特征细化辅助实例分割网络（DFRInst），用于改进船舶实例分割的性能，并通过实验证明了该方法在提高船舶实例分割中的性能方面凸显优势。

Feb, 2024

大规模视觉语言模型用于细粒度船舶分类的高效提示调整

本研究探讨了利用大型预训练视觉-语言模型在遥感领域中增强未见船只类别分类准确性的潜力，介绍了一种新颖的逐步调整技术来解决过拟合问题，并引入了一个全面的数据集（FGSCM-52）以及证明了该方法在实验中的优越性。

Mar, 2024

多源卫星影像的多尺度船舶探测的组合洞察

利用深度学习从卫星图像中检测船只是海上监视的一种不可或缺的解决方案。然而，将在一个数据集上训练的深度学习模型应用于具有空间分辨率和辐射特征差异的其他数据集时，需要进行许多调整。为了解决这个问题，本文研究了基于包含不同光学图像和雷达与光学数据组合的数据集进行训练的深度学习模型。通过这种方法处理有限数量的训练图像时，深度学习模型的性能是令人满意的。它们可以根据测试的光学图像提高平均精度5-20%。同样，使用在光学与雷达数据集上训练的深度学习模型可以应用于光学和雷达图像。我们的实验表明，在光学数据集上训练的模型可以用于雷达图像，而在雷达数据集上训练的模型在应用于光学图像时得分非常低。

Mar, 2024

RS-GPT4V：一份用于遥感图像理解的统一多模态指令跟随数据集

远程传感图像智能理解模型正在经历一个深刻的新范式转变，即从学习域模型的范式转变为先学习预训练的通用基础模型，然后再进行自适应域模型的范式。在新的自适应域模型范式下，过去十年中已取得远程传感图像智能理解进展的旧数据集不再适用于全新任务。我们认为必须设计一个具备以下特征的新数据集来轻化任务：1)泛化性：训练模型学习多个任务之间的共享知识，并适应不同的任务；2)理解复杂场景：训练模型理解感兴趣对象的细粒度属性，并能用自然语言描述场景；3)推理能力：训练模型能够实现高层次的视觉推理。本文设计了一个由GPT-4V和现有数据集共同创建的高质量、多样化、统一的多模式指令跟踪数据集，我们称之为RS-GPT4V。为了实现泛化性，我们使用了由GPT-4V通过指令跟踪引导推导出来的（问题，答案）对来统一诸如字幕和定位等任务；为了实现复杂场景，我们提出了一种具有局部策略的分层指令描述方式，描述了对象的细粒度属性和它们的空间关系，并具有全局策略将所有局部信息集成以生成详细的指令描述；为了实现推理能力，我们设计了多轮问答对来为模型提供推理能力。实证结果表明，通过RS-GPT4V微调的多模态大语言模型能够描述细粒度信息。数据集可在此网址获取：https://example.com

Jun, 2024

IFShip：通过领域知识增强指令调优的可解释细粒度船舶分类的大型视觉-语言模型

本研究解决了遥感细粒度船舶分类任务中传统模型缺乏可解释性的问题。提出的IFShip模型通过自然语言准确传达推理过程，并通过知识增强的链式思维提示生成机制构建了用于训练的TITANIC-FGS数据集。实验结果表明，IFShip在分类可解释性和准确性方面超过了当前最先进的算法，提供了更优的领域专长和推理链信息。

Aug, 2024