GOMAA-Geo:目标模态不可知主动地理定位
通过利用 LiDAR 点云和卫星地图,AGL-NET 提出了一种新的基于学习的全球定位方法,解决了图像和点云数据之间的表征差异以及全局视图和局部视图之间的尺度差异的关键挑战。AGL-NET 采用一种统一的网络架构,通过创新的两阶段匹配设计来提取信息化的神经特征,并引入了新颖的尺度对齐步骤来校正 LiDAR 和地图数据之间的尺度变化,进一步通过新颖的尺度和骨骼损失函数指导网络学习尺度不变的特征表征,从而消除了预处理卫星地图的需要,显著提高了在未知地图尺度情况下的实际应用性。为了促进严格的性能评估,我们在 CARLA 模拟器中引入了一个精心设计的数据集,专门用于度量定位训练和评估。代码和数据集将公开提供。
Apr, 2024
本文提出了一个新的多模态预训练框架 MMGA,它能在社交媒体上整合图形、图像和文本模态的信息来增强用户表示学习。通过多步骤的图形对齐机制,将自监督信息注入到图像和文本编码器的优化中,同时使用图像和文本模态的信息来指导图形编码器学习。实验结果表明,该模型在 Instagram 数据集上表现良好,能提高粉丝预测任务的性能;同时,我们也公开了包含 60,000 个用户、基于 200 万帖子标注的第一个图形多模态数据集,以便于未来的研究。
Oct, 2022
提出了基于检索增强生成 (RAG) 的 G3 框架,通过全球地理位置定位的几个步骤以优化检索和生成阶段,该框架在全球上下文中优于其他先进方法。
May, 2024
该研究提出了一种新颖的多模态地理语言模型 (MGeo) 用于查询 - POI 匹配,通过将地理信息视作一个新的模态,在提取多模态相关性的同时准确表示查询中的多个地理对象,提升了通用 PTMs 的查询 - POI 匹配能力。
Jan, 2023
本研究提出了一个新的多目标追踪器 GIAOTracker,它通过三阶段的在线追踪、全局关联和后处理框架来解决无人机视频中小目标、相机运动和视角变化等挑战,达到了领先水平,并在 VisDrone2021 MOT 挑战中获得第三名。
Feb, 2022
本文提出了一种基于强化学习的模型,名叫 AiRLoc,用于解决搜索和救援行动中的目标定位问题,该模型可以在局部图像信息下自主完成目标搜索和定位,并且在灾难等环境下也表现出良好的泛化能力。
Sep, 2022
本文讨论了一种针对物体重新排列任务的单次模仿学习方法,通过基于图等价映射的奖励学习策略发现和学习与目标规范一致的空间目标表达,并与强基线方法相比,显著提高了学习目标表达在不同环境下的泛化能力。
Nov, 2022
本研究提出了一个轻量级、全 CPU 基于的 “图神经本地化器” 框架,旨在解决语义定位问题。该框架结合了场景图和图神经网络技术,首先训练了一个场景图分类器用于被动视觉,然后将其知识转移到强化学习规划器用于主动视觉。实验表明,该方法在自我监督学习和无监督域适应两个场景下都具有效果。
May, 2023
利用未标记的地球观测数据创建多模态预训练数据集,通过多模态预训练任务,提出了改进的 ConvNeXt V2 架构的 Multi-Pretext Masked Autoencoder (MP-MAE) 方法,证明多模态预训练可以显著提高图像分类和语义分割的性能,以及标签和参数的效率。
May, 2024