WaterVG: 基于文本引导的视觉和毫米波雷达的水道视觉定位

Mar, 2024

WaterVG: 基于文本引导的视觉和毫米波雷达的水道视觉定位

WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar

Runwei Guan, Liye Jia, Fengyufan Yang, Shanliang Yao, Erick Purwanto...

TL;DR基于人类意图的水域感知对于水面无人船的自主导航和操作具有重要意义。本文提出了第一个基于人类意图的水域感知的视觉 grounding 数据集 WaterVG，并引入了一种新颖的多模态视觉 grounding 模型 Potamoi，通过融合不同传感器和语言特征，有效地解决了细粒度指称表达理解和分割任务。经过全面实验和评估，我们的 Potamoi 模型在 WaterVG 数据集上取得了与同类模型相比的最先进水平。

Abstract

The perception of waterways based on human intent holds significant importance for autonomous navigation and operations of Unmanned Surface Vehicles (USVs) in water environments. Inspired by →

waterways autonomous navigation unmanned surface vehicles visual grounding multi-modal visual grounding model

发现论文，激发创造

HiVG: 视觉引导的分层多模态细粒度调控

通过多模态预训练的方法，我们提出了一个简洁高效的分层多模态细粒度调制框架 HiVG，用于解决通过自然语言对视觉区域进行视觉定位的任务，并且在五个数据集上的实验证明了该方法的有效性和显著的视觉定位能力及能源效率优势。

Apr, 2024

极端海洋环境下的无人水面船视觉自主导航

该研究论文介绍了一种应对极端海洋条件中目标物跟踪的自主视觉导航框架，该框架利用生成对抗网络（GAN）和 YOLOv5 目标检测器对视觉特征进行处理，并在沙尘暴和雾等极端能见度受限条件下进行了充分测试，结果表明该方案在多个指标上优于现有方法。

Aug, 2023

语言引导扩散模型用于视觉定位

通过去噪扩散建模的语言引导扩散框架（LG-DVG）提出了一种逐步推理的视觉定位方法，可持续改进查询 - 区域匹配，在跨模态对齐任务中以生成方式解决视觉定位，并在多个数据集上验证其超凡性能。

Aug, 2023

WaterScenes：一个用于自主水面驾驶的多任务 4D 雷达 - 相机融合数据集和基准

本研究提出了 WaterScenes 数据集，其基于多任务 4D 雷达和单目相机融合技术，针对典型静态和动态水上物体进行标记，并提供了各种感知任务的注释，结果表明，4D 雷达相机融合能够极大地提高水上物体在恶劣光照和天气条件下的感知的稳健性。

Jul, 2023

Mono3DVG: 单目图像中的三维视觉定位

我们介绍了一项新的任务，使用带有外观和几何信息的语言描述在单目 RGB 图像中进行 3D 可视定位。具体而言，我们构建了一个大规模数据集 Mono3DRefer，其中包含具有对应的几何文本描述的 3D 目标，由 ChatGPT 生成并手动改进。为了促进此任务，我们提出了 Mono3DVG-TR，一种利用文本嵌入中的外观和几何信息进行多模态学习和 3D 目标定位的端到端变压器网络。深度预测器旨在明确学习几何特征。提出了双文本引导适配器，用于改进所参考对象的多尺度视觉和几何特征。基于深度 - 文本 - 视觉堆叠注意力，解码器融合了物体级几何线索和视觉外观成为可学习的查询。Mono3DVG 提供了全面的基准测试和一些有见地的分析。广泛的比较和消融研究结果表明我们的方法明显优于所有基线方法。该数据集和代码将在以下链接公开发布：this https URL。

Dec, 2023

TransVG：基于 Transformer 的端到端视觉定位

本文提出了一种基于 Transformer 的视觉定位框架 TransVG，通过建立多模态对应关系，实现使用简单 Transformer 编码器层替代复杂的融合模块，在五个广泛使用的数据集上取得了一系列最先进的记录并构建了基于 Transformer 的视觉定位框架基准。

Apr, 2021

基于中心点监督的迭代稳健视觉定位

通过引入迭代的鲁棒视觉定位框架，以及基于屏蔽参考点的中心化监督和多阶段假警敏感解码器，该研究提出了一种在给定表达式的情况下从图像中定位目标对象的方法，以提高可靠性和准确性，并在实验中展示了其在常规和鲁棒视觉定位数据集上的较好结果。

Jul, 2023

自主水面车辆水中物体的多模态感知数据集

该研究介绍了第一个公开可用的多模态感知数据集，针对自主海洋导航中的水中障碍物，以增强自主水面车辆的情境感知。该数据集包括了不同环境条件下遇到的各种物体，并旨在通过提供多模态、带注释的、自我的感知数据集来填补海洋机器人学研究的空白，以进行物体检测和分类。我们还展示了该数据集框架的适用性，使用已经取得成功的基于深度学习的开源感知算法。我们期望我们的数据集将有助于海洋自主管道和海洋机器人技术的发展。请注意，这是我们正在进行的研究的一篇进行性论文，我们计划通过未来的出版物来完整发布。

Apr, 2024

零字参数开放词汇三维视觉定位的可视化编程

通过使用大型语言模型，我们提出了一种零样本开放词汇的三维视觉定位方法，使用独特的基于对话的方法和视觉程序模块，以及创新的语言 - 物体关联模块，在三维场景中实现了复杂推理，并扩展了现有三维物体检测器的应用范围，取得了显著的性能优势。

Nov, 2023

文本引导的 3D 视觉定位调查：要素、最新进展与未来方向

文本引导的三维视觉定位（T-3DVG）是从复杂的三维场景中定位与语言查询在语义上对应的对象，近年来已经在三维研究领域引起了越来越多的关注。本综述试图全面概述 T-3DVG 的进展，包括基本要素、最新研究进展和未来研究方向，并提供了详细的教程式的管道结构、现有方法的分类和性能评估指标，以及现有方法的潜在限制和未来研究方向。

Jun, 2024