Mar, 2024

WaterVG: 基于文本引导的视觉和毫米波雷达的水道视觉定位

TL;DR基于人类意图的水域感知对于水面无人船的自主导航和操作具有重要意义。本文提出了第一个基于人类意图的水域感知的视觉 grounding 数据集 WaterVG,并引入了一种新颖的多模态视觉 grounding 模型 Potamoi,通过融合不同传感器和语言特征,有效地解决了细粒度指称表达理解和分割任务。经过全面实验和评估,我们的 Potamoi 模型在 WaterVG 数据集上取得了与同类模型相比的最先进水平。