全景感知：一项新的任务和细粒度数据集用于通用遥感图像解释

Apr, 2024

全景感知：一项新的任务和细粒度数据集用于通用遥感图像解释

Panoptic Perception: A Novel Task and Fine-grained Dataset for Universal Remote Sensing Image Interpretation

Danpei Zhao, Bo Yuan, Ziqiang Chen, Tian Li, Zhuoran Liu...

TL;DR通过提出全景感知任务和细粒度数据集（FineGrip），该研究论文旨在实现对遥感图像的更全面、更普遍的解释。同时，该研究还提出了一种联合优化的全景感知模型，证明了多任务联合优化对各个任务的有益效果，并将数据集公开提供。

Abstract

Current remote-sensing interpretation models often focus on a single task such as detection, segmentation, or caption. However, the task-specific designed models are unattainable to achieve the comprehensive multi-level interpretation of images. The field also lacks support for multi-task joint interpretation datasets. In this paper, we propose →

remote sensing interpretation models panoptic perception fine-grained dataset multi-task joint interpretation image perception

发现论文，激发创造

SkySenseGPT：用于遥感视觉语言理解的细粒度指令调整数据集和模型

通过 FIT-RS 数据集，提出了一种用于远程感知的大规模指令调整数据集，通过评估复杂关系理解能力并建立 FIT-RSRC 基准，以 FIT-RSFG 基准为依据，提出了 SkySenseGPT 模型来增强远程感知大规模细粒度数据源与关系理解能力。

Jun, 2024

全景分割

本文提出并研究了一项称为全景分割的任务，该任务将语义分割和实例分割两个任务统一起来，提出了新型的评估指标，并进行了全面的研究。

Jan, 2018

RS-GPT4V：一份用于遥感图像理解的统一多模态指令跟随数据集

远程传感图像智能理解模型正在经历一个深刻的新范式转变，即从学习域模型的范式转变为先学习预训练的通用基础模型，然后再进行自适应域模型的范式。在新的自适应域模型范式下，过去十年中已取得远程传感图像智能理解进展的旧数据集不再适用于全新任务。我们认为必须设计一个具备以下特征的新数据集来轻化任务：1) 泛化性：训练模型学习多个任务之间的共享知识，并适应不同的任务；2) 理解复杂场景：训练模型理解感兴趣对象的细粒度属性，并能用自然语言描述场景；3) 推理能力：训练模型能够实现高层次的视觉推理。本文设计了一个由 GPT-4V 和现有数据集共同创建的高质量、多样化、统一的多模式指令跟踪数据集，我们称之为 RS-GPT4V。为了实现泛化性，我们使用了由 GPT-4V 通过指令跟踪引导推导出来的（问题，答案）对来统一诸如字幕和定位等任务；为了实现复杂场景，我们提出了一种具有局部策略的分层指令描述方式，描述了对象的细粒度属性和它们的空间关系，并具有全局策略将所有局部信息集成以生成详细的指令描述；为了实现推理能力，我们设计了多轮问答对来为模型提供推理能力。实证结果表明，通过 RS-GPT4V 微调的多模态大语言模型能够描述细粒度信息。数据集可在此网址获取：https://example.com

Jun, 2024

街景理解的单网络全景分割

本文提出了一种用于全景分割的深度神经网络，将语义分割与实例分割任务联合起来，从而在单次计算中为输入图像的每个像素提供类标签和唯一对象标识符，并且通过增强信息共享和合并启发式方法，单个网络的性能提高，如在 Cityscapes 上可获得 45.9 的 PQ 分数。

Feb, 2019

全景叙事基础

本文提出了一种名为全景叙事基础的新型任务，包括新的实验框架、地面真值和指标，并提出了一个强大的基线方法。文章提出了一种算法，将分布式叙事注释传输到 MS COCO 数据集的普透明分割的特定区域。通过使用分割，文中还以精细的层次接近视觉基础问题，并通过包括全景类别来实现图像的内在语义丰富度。

Sep, 2021

Panoptic nuScenes：LiDAR 全图分割和跟踪的大规模基准测试

介绍了扩展了 nuScenes 数据集的大规模全景 nuScenes 基准数据集，以便对动态城市环境的全景场景理解方法进行研究和评估，同时提出了各种分割和跟踪任务的强基线方法，并提出了面向实例的新型 PAT 指标，解决了现有指标的局限性。

Sep, 2021

图像和视频全景分割的通用框架

本研究利用基于模拟比特的扩散模型来解决全景分割任务中高维的一对多映射，通过添加过去的预测作为信息输入，能够对视频中的对象实例进行跟踪并自动学习，在各项实验中与现有的专业方法相比表现出了竞争性。

Oct, 2022

RSGPT：遥感视觉语言模型与基准

大规模语言模型的出现显著推动了人工智能的快速发展，并引发了人工智能 2.0 的革命。远程感知领域对于开发专门针对数据分析的大规模视觉语言模型越来越感兴趣。然而，目前的研究主要集中在视觉识别任务上，缺乏对齐并适用于训练大规模视觉语言模型的全面、大规模图像 - 文本数据集，这对于有效训练此类模型构成了重大挑战。本研究构建了一个高质量的远程感知图像字幕数据集（RSICap），用于促进 RS 领域大规模视觉语言模型的发展。与以往通过模型生成的字幕或简短描述的数据集不同，RSICap 包括 2,585 个人工注释的字幕，具备丰富和高质量的信息。该数据集为每个图像提供了详细的描述，包括场景描述（例如居住区、机场或农田）以及对象信息（例如颜色、形状、数量、绝对位置等）。为了促进在 RS 领域中对视觉语言模型的评估，我们还提供了一个基准评估数据集 RSIEval，它包括人工注释的字幕和视觉问答对，可以全面评估在 RS 背景下的视觉语言模型。

Jul, 2023

360+x: 一个全景多模态场景理解数据集

该研究使用多个视角和多种数据模式，提供全景视角和个人视角的场景理解数据集，以模拟真实世界中的信息访问方式，并通过 5 个不同的场景理解任务对数据集进行了评估，希望为综合场景理解提供更广泛的范围和多元化视角。

Apr, 2024

全景意图网络：面向视障人士的高效导航感知

通过提出一种基于 Panoptic Lintention Net 的紧凑可穿戴全景分割系统，协助视障人士高效地获得环境中物品和场景的感知，使用 Lintention 注意模块快速建模长程关联，实现对现实场景的全景分割，获得了较稳定和显著的分割效果。

Mar, 2021