GOMAA-Geo：目标模态不可知主动地理定位

Jun, 2024

GOMAA-Geo：目标模态不可知主动地理定位

GOMAA-Geo: GOal Modality Agnostic Active Geo-localization

Anindya Sarkar, Srikumar Sastry, Aleksis Pirinen, Chongjie Zhang, Nathan Jacobs...

TL;DR我们提出了 GOMAA-Geo，一个目标模态不可知的主动地理定位代理，通过跨模态对比学习和监督基础模型预训练以及强化学习相结合的方式，实现高效的导航和定位策略，在广泛评估中表现出超越可学习方法并在不同数据集和目标模态上进行泛化的能力。

Abstract

We consider the task of active geo-localization (AGL) in which an agent uses a sequence of visual cues observed during aerial navigation to find a target specified through multiple possible →

active geo-localization agent modalities gomaa-geo generalization

发现论文，激发创造

AGL-NET：具有不同尺度的航地跨模态全局定位

通过利用 LiDAR 点云和卫星地图，AGL-NET 提出了一种新的基于学习的全球定位方法，解决了图像和点云数据之间的表征差异以及全局视图和局部视图之间的尺度差异的关键挑战。AGL-NET 采用一种统一的网络架构，通过创新的两阶段匹配设计来提取信息化的神经特征，并引入了新颖的尺度对齐步骤来校正 LiDAR 和地图数据之间的尺度变化，进一步通过新颖的尺度和骨骼损失函数指导网络学习尺度不变的特征表征，从而消除了预处理卫星地图的需要，显著提高了在未知地图尺度情况下的实际应用性。为了促进严格的性能评估，我们在 CARLA 模拟器中引入了一个精心设计的数据集，专门用于度量定位训练和评估。代码和数据集将公开提供。

Apr, 2024

面向导向对比学习的无人机视角地理定位

通过建议的方向引导训练框架，本文在无人机成像中通过层级定位，预测方向标签以支持训练，实现了高精度的地理定位，同时还可以增强卫星图像对空间的推广。

Aug, 2023

MMGA：基于图形对齐的多模式学习

本文提出了一个新的多模态预训练框架 MMGA，它能在社交媒体上整合图形、图像和文本模态的信息来增强用户表示学习。通过多步骤的图形对齐机制，将自监督信息注入到图像和文本编码器的优化中，同时使用图像和文本模态的信息来指导图形编码器学习。实验结果表明，该模型在 Instagram 数据集上表现良好，能提高粉丝预测任务的性能；同时，我们也公开了包含 60,000 个用户、基于 200 万帖子标注的第一个图形多模态数据集，以便于未来的研究。

Oct, 2022

G3：基于大规模多模态模型的全球地理定位的有效和自适应框架

提出了基于检索增强生成 (RAG) 的 G3 框架，通过全球地理位置定位的几个步骤以优化检索和生成阶段，该框架在全球上下文中优于其他先进方法。

May, 2024

多模式地理预训练方法

该研究提出了一种新颖的多模态地理语言模型 (MGeo) 用于查询 - POI 匹配，通过将地理信息视作一个新的模态，在提取多模态相关性的同时准确表示查询中的多个地理对象，提升了通用 PTMs 的查询 - POI 匹配能力。

Jan, 2023

GIAOTracker：基于全局信息与优化策略的 VisDrone 2021 MCMOT 综合框架

本研究提出了一个新的多目标追踪器 GIAOTracker，它通过三阶段的在线追踪、全局关联和后处理框架来解决无人机视频中小目标、相机运动和视角变化等挑战，达到了领先水平，并在 VisDrone2021 MOT 挑战中获得第三名。

Feb, 2022

强化学习空中视角定位：迈向模拟搜救

本文提出了一种基于强化学习的模型，名叫 AiRLoc，用于解决搜索和救援行动中的目标定位问题，该模型可以在局部图像信息下自主完成目标搜索和定位，并且在灾难等环境下也表现出良好的泛化能力。

Sep, 2022

基于图形激活奖励学习的通用空间目标表示发现

本文讨论了一种针对物体重新排列任务的单次模仿学习方法，通过基于图等价映射的奖励学习策略发现和学习与目标规范一致的空间目标表达，并与强基线方法相比，显著提高了学习目标表达在不同环境下的泛化能力。

Nov, 2022

具有图神经嵌入的主动语义定位

本研究提出了一个轻量级、全 CPU 基于的 “图神经本地化器” 框架，旨在解决语义定位问题。该框架结合了场景图和图神经网络技术，首先训练了一个场景图分类器用于被动视觉，然后将其知识转移到强化学习规划器用于主动视觉。实验表明，该方法在自我监督学习和无监督域适应两个场景下都具有效果。

May, 2023

MMEarth: 多模态预测任务研究地理空间表示学习

利用未标记的地球观测数据创建多模态预训练数据集，通过多模态预训练任务，提出了改进的 ConvNeXt V2 架构的 Multi-Pretext Masked Autoencoder (MP-MAE) 方法，证明多模态预训练可以显著提高图像分类和语义分割的性能，以及标签和参数的效率。

May, 2024