通过问答学习实体视觉导航和任务完成

Feb, 2023

通过问答学习实体视觉导航和任务完成

Learning by Asking for Embodied Visual Navigation and Task Completion

Ying Shen, Ismini Lourentzou

TL;DR该研究提出一种名为 ELBA 的模型，以增强具有互动人类能力的代理，通过问答实现动态获取附加信息，以提高任务完成性能，并在 TEACH 视觉对话导航和任务完成数据集上进行了评估。

Abstract

The research community has shown increasing interest in designing intelligent embodied agents that can assist humans in accomplishing tasks. Despite recent progress on related vision-language benchmarks, most prior work has focused on building agents that follow instructions rather than endowing agents the ability to ask questions to actively resolve ambigui

embodied learning-by-asking intelligent embodied agents teach dataset question-answering capabilities task performance

发现论文，激发创造

问答式学习

本文介绍了一种基于 “学问即问”（LBA）的交互式学习框架用于开发和测试智能视觉系统在视觉问题回答方面的应用，不同于标准的 VQA 训练，LBA 更接近自然学习且可能具有更高的数据效率，自动生成的数据在 CLEVR 数据集上具有很好的性能和表现，对最新的 VQA 模型和新的测试数据分布具有很好的推广与实现。

Dec, 2017

具身视觉导航的深度学习：一项综述

综述了目前关于具有各种智能技能的智能机器人在 3D 环境中进行导航的研究领域，着重介绍了在这一领域内的各种高级技能，例如：感知局部观察视觉输入，理解跨模态的指令等等，并探讨了未来的研究方向及挑战。

Jul, 2021

具身化问答

本文介绍了一项新的 AI 任务 -- 实体问答（EmbodiedQA），其中智能体在随机位置生成于 3D 环境中，通过主动感知、语言理解、目标导向的导航、常识推理和语言行动化等一系列 AI 技能完成问答任务，同时我们也开发了 EmbodiedQA 环境、端到端训练的强化学习智能体和评估协议。

Nov, 2017

Just Ask: 视觉与语言导航的交互学习框架

本文提出了一个交互式学习框架以及多种学习方法应对视觉和语言导航任务中出现的模糊情况，引入强化学习并设计奖励塑形项使智能体仅在必要时提问，同时展示了持续学习策略的有效性。

Dec, 2019

一个在具体可视化导航中寻求帮助学习框架的研究

提出一种学习框架，使代理程序在具有未知位置的目标的肢体视觉导航任务中积极寻求帮助并通过不断的实践训练，在不总能得到反馈的情况下学会了有效地寻求帮助和提供足够的鲁棒性

Jun, 2022

询问行动前：基于语言模型的具身决策中信息的收集

提出一种名为 “行动前询问”（Asking Before Action，ABA）的方法，利用自然语言引导大型语言模型（LLMs）在未知环境中主动查询外部知识，从而增强其效率和性能，实验证明该方法在 ALFWorld 等体验决策基准中表现出更好的性能。

May, 2023

基于知识的具身化问答

本文提出了一种基于知识的具身问答 (Knowledge-based Embodied Question Answering, K-EQA) 任务，其中智能体通过利用知识来探索环境以回答各种问题。为解决这一问题，本文提出了一种基于神经程序合成推理的新框架，同时进行外部知识和 3D 场景图的联合推理，以实现导航和问答。实验结果表明，该框架能够在具身环境中回答更加复杂和现实的问题，并且该方法也适用于多智能体场景。

Sep, 2021

具备体验智能的视觉 - 语言导航：综述

长期愿景是提高代理者和环境的感知、理解和交互能力，以实现具体导航的视觉 - 语言导航（VLN）作为实现具体导航的核心研究路径，关注代理者如何使用自然语言与人类进行有效沟通，接收和理解指令，并最终依靠视觉信息实现准确的导航。此综述系统回顾了 VLN 的研究进展并详细介绍了具体导航的研究方向，包括系统架构、基于方法的研究和常用基准数据集，全面分析了当前研究面临的问题和挑战，并探讨了该领域的未来发展方向，旨在为研究人员提供实用的参考。

Feb, 2024

面向语义分割的视觉活动学习

本文研究了具体化视觉主动学习任务，该任务通过选择性的视野请求注释来探索三维环境，以获取场景理解，我们通过开发一系列智能体来研究具体化视觉主动学习，其中智能体配备语义分割网络，并使用深度强化学习以及奖励函数平衡任务性能和必要注释数据请求，得到了可靠的结果。

Dec, 2020

具身 BERT：一种用于具身、语言引导的视觉任务完成的 Transformer 模型

EmBERT 是一种基于 transformer 的模型，具有语言指导的目的完成能力。它是第一个能够成功处理 ALFRED 的历史记录、多模态的长时间跨度的 transformer 模型，同时也是第一个在 ALFRED 中使用对象导航目标的模型。

Aug, 2021