面向航空视觉与对话导航的目标感知图形感知变压器

Aug, 2023

面向航空视觉与对话导航的目标感知图形感知变压器

Target-Grounded Graph-Aware Transformer for Aerial Vision-and-Dialog Navigation

Yifei Su, Dong An, Yuan Xu, Kehan Chen, Yan Huang

TL;DR本研究提出了一种目标感知的图注意力变换器（TG-GAT）框架，用于无人机代理相关对话历史与航空观测的关联，以实现导航任务，并通过大型语言模型实现辅助视觉以及数据增强策略，有效提高导航性能。

Abstract

This report details the method of the winning entry of the avdn challenge in ICCV 2023. The competition addresses the aerial navigation from dialog history (ANDH) task, which requires a drone agent to associate d

avdn challenge aerial navigation from dialog history target-grounded graph-aware transformer spatiotemporal dependency augmentation strategy

发现论文，激发创造

基于人类注意力辅助的航空视觉与对话导航的多模型融合

发展能够与人类交流并遵循自然语言命令的智能无人机，该研究提出了一种基于 AVDN 数据集的高效融合训练方法，使用 HAA-Transformer 模型和 HAA-LSTM 模型，对导航路由点和人的注意力进行预测，并在 SR、SPL 指标上取得高效果，相比基线模型，GP 指标有 7% 的改进。

Aug, 2023

空中视觉和对话导航

本文提出 Aerial Vision-and-Dialog Navigation (AVDN) 技术，利用自然语言对话方式实现无人机的导航，研究使用 AVDN 数据集实现从全对话历史中进行航行的任务，并提出一种有效的 Human Attention Aided (HAA) 基线模型，通过预测导航航点和人类注意力实现自动导航。

May, 2022

TransVG：基于 Transformer 的端到端视觉定位

本文提出了一种基于 Transformer 的视觉定位框架 TransVG，通过建立多模态对应关系，实现使用简单 Transformer 编码器层替代复杂的融合模块，在五个广泛使用的数据集上取得了一系列最先进的记录并构建了基于 Transformer 的视觉定位框架基准。

Apr, 2021

面向目标的结构化 Transformer 规划器用于视觉语言导航

本文提出了一种基于目标驱动的结构化 Transformer 规划器（TD-STP）用于长期目标导向和房间布局感知的视觉语言导航任务，该规划器设计了想象场景的分词机制以及一种结构化的全局规划的神经注意力架构，并在 R2R 和 REVERIE 基准测试数据集上的测试结果上比现有最优方法的成功率分别提高了 2％和 5％

Jul, 2022

GPT-4 增强型自动驾驶多模态基础：借助大型语言模型的跨模态注意力

在自动驾驶车辆领域中，准确识别指挥者意图并在视觉环境中执行语言指令是一个巨大的挑战。本文介绍了一个复杂的编码器 - 解码器框架，用于解决自动驾驶车辆中的视觉 grounding 问题。我们的 Context-Aware Visual Grounding (CAVG) 模型是一个先进的系统，将文本、图像、上下文和跨模态的五个核心编码器集成到一个多模态解码器中。该模型通过实施多头跨模态注意力机制和区域特定动态 (RSD) 层，能够高效处理和解释一系列跨模态输入，从而全面理解口头指令和相应的视觉场景之间的相关性。在真实世界基准数据集 Talk2Car 上的实证评估表明，CAVG 在预测准确性和操作效率方面树立了新的标准。值得注意的是，即使在完整数据集的 50% 到 75% 的有限训练数据的情况下，该模型表现出色。这一特点凸显了它在实际自动驾驶应用中的效果和潜力。此外，CAVG 在挑战性场景中展现出了卓越的强健性和适应性，包括长文本命令解释、低光条件、模糊的命令上下文、恶劣天气条件和人口密集的城市环境。该模型的代码可在我们的 Github 上找到。

Dec, 2023

使用 Transformer 进行视觉定位

该论文提出了一种基于 Transformer 编码器 - 解码器的视觉 grounding 方法，通过在不损伤位置定位能力的前提下，在文本描述的指导下学习语义鉴别的视觉特征，具有强大的文本 - 视觉语境语义捕捉能力。实验结果表明，在保持快速推理速度的同时，该方法在五个基准上优于现有的提案 - free 方法。

May, 2021

全局思考，本地行动：面向视觉和语言导航的双尺度图形 Transformer

通过使用 Dual-scale Graph Transformer（DUET）建立拓扑地图来平衡全局动作控制和局部语言理解的复杂性，在视觉动作规划领域，DUET 明显优于现有研究成果，包括 REVERIE、SOON 和 R2R。

Feb, 2022

空间时间图双重注意力网络用于多智能体预测和跟踪

本文提出了一种通用的生成神经系统（称为 STG-DAT），用于多代理轨迹预测，涉及异构代理。该系统采用了动态图形表示，并利用轨迹和场景上下文信息来明确交互建模。本文还采用了一个有效的运动学约束层，该约束不仅确保物理可行性，而且提高了模型性能。

Feb, 2021

高效遥感分割的生成对抗变换器

通过一个高效的 Generative Adversarial Transfomer (GATrans)，采用深度学习方法和全局变换网络（GTNet）来实现高精度语义分割，在保持极高效率的同时，通过多层特征提取和结构相似性损失函数优化，获得了 90.17% 的平均 F1 得分和 91.92% 的总体准确率。

Oct, 2023

基于格里曼角度场视觉变换器的自动驾驶车辆驾驶行为探索

本研究提出了 Gramian Angular Field Vision Transformer (GAF-ViT) 模型，用于分析自动驾驶汽车 (AV) 的驾驶行为。该模型通过将多变量行为的代表序列转化为多通道图像，并应用图像识别技术进行行为分类，实现了对多通道图像的特征驾驶行为的识别。对 Waymo Open 数据集的实验评估表明，该模型实现了最先进的性能，同时消融研究有效地证实了模型中各个组件的功效。

Oct, 2023