基于辅助人工智能消除歧义的视觉定位实现虚实转移

May, 2022

基于辅助人工智能消除歧义的视觉定位实现虚实转移

Sim-To-Real Transfer of Visual Grounding for Human-Aided Ambiguity Resolution

Georgios Tziafas, Hamidreza Kasaei

TL;DR本研究介绍了一种基于模块化方法的场景感知机器人视觉定位框架，该方法通过训练每个模块来独立解析实体、属性和空间关系，并结合领域自适应技术解决常见问题。实验表明，该框架与 Sim-To-Real 实现的视觉识别方法相结合，能够提供一种数据高效、稳健且易于理解的视觉定位机器人方案。

Abstract

service robots should be able to interact naturally with non-expert human users, not only to help them in various tasks but also to receive guidance in order to resolve ambiguities that might be present in the instruction. We consider the task of →

service robots visual grounding modular approach domain modeling sim-to-real visual recognition

发现论文，激发创造

使用场景图进行增量式目标定位

本文介绍了一种基于场景图和语言结构的递增式 grounding 模型 (IGSG)，通过使用场景图中的对象之间的关系，构造问答对话方式以消除人类命令的歧义和错误，该模型在现实场景中表现出可接受的性能，可以有效地通过回问式问答消除歧义的问题。

Jan, 2022

虚拟到现实：在视觉语义分割中学习控制

为解决机器人虚拟世界到真实世界的迁移问题，本文提出了一种基于模块化架构、采用语义图像分割作为元表示的深度强化学习方法，实现了 RGB 图像到语义图像段转换。实验结果表明，该架构在避障和目标跟踪任务中表现优异，并在虚拟和真实环境中均明显优于基准方法。

Feb, 2018

LLM-Grounder：使用大型语言模型作为代理人进行开放词汇三维视觉对接

LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型（LLM）的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素，并利用可视化定位工具识别 3D 场景中的对象，LLM-Grounder 评估所提议对象之间的空间和常识关系，从而做出最终的定位决策。该方法不需要有标签的培训数据，可应用于新型 3D 场景和任意文本查询，显示出最先进的零样本定位准确性。研究结果表明，LLM 显著提高了定位能力，尤其对于复杂语言查询，在机器人的 3D 视觉语言任务中，LLM-Grounder 是一种有效的方法。

Sep, 2023

借助推理能力强化 3D 视觉定位

提出了一种新的任务称为 3D 推理定位，并引入了一个名为 ScanReason 的新基准，该基准提供了来自五种推理类型的超过 10K 个问题 - 答案 - 位置对，需要推理与定位的相互作用，进一步设计了我们的 ReGround3D 方法，由视觉中心推理模块与多模式大型语言模型（MLLM）驱动的 3D 定位模块组成，通过回顾增强几何和细节从 3D 场景中获得准确的对象位置，并提出了一种推理和定位步骤相互交错的推理链机制来进一步提高性能，在所提出的基准上进行了广泛的实验证实了我们提出的方法的有效性。

Jul, 2024

在二维环境中的交互式基于语境的语言习得和推理

基于 2D 迷宫世界，通过虚拟代理学习语言的模型，将语言的生成与理解与其他计算流程分离，从而成功地解决新单词出现的问题。模型可以解释人类可理解的中间输出结果，大幅优于其他五种比较方法。

Jan, 2018

基于模型和数据的视觉定位学习

SynGround 是一个结合数据驱动学习和知识传递的新框架，通过模型间的知识传递增强预训练的视觉语言模型的视觉定位能力，并通过合成图像和文本来提高模型性能，最终在多个数据集上展示出提升。

Mar, 2024

交互式机器人操作的混合组合推理方法

本文介绍了一种神经符号 (混合) 组合推理模型，以将语言引导的视觉推理与机器人操作相结合。该模型通过使用共享的原始技能库以任务非特定的方式处理所有情况。通过语言解析器将输入查询映射为由这些原语组成的可执行程序取决于上下文。结果表明，该方法达到了非常高的准确性，同时可以进行少量的视觉微调，从而实现了真实场景的可转移性。

Oct, 2022

利用文本为视觉表示建立通用领域基础

本文提出了一种基于自然语言监督的跨模态领域泛化方法，利用视觉和文本交互的表征来实现高级别类别判别的信息融合，并使用可解释的模型来生成解释，从而提高模型的泛化能力和性能。作者的方法在多个数据集上均取得了最新领先的结果。

Jul, 2022

视觉语言导航：在实际环境中解释基于视觉的导航指令

通过视觉和语言方法的应用，本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator，为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。

Nov, 2017

CoT3DRef: 链状思考数据高效 3D 视觉定位

设计一种可解释的 3D 视觉定位框架，通过预测一系列锚点和最终目标，将 3D 视觉定位问题形式化为序列到序列任务，将指称任务分解为可解释的中间步骤，从而提高性能并极大地提高数据效率。

Oct, 2023