通过问答学习实体视觉导航和任务完成
本文介绍了一种基于 “学问即问”(LBA)的交互式学习框架用于开发和测试智能视觉系统在视觉问题回答方面的应用, 不同于标准的 VQA 训练,LBA 更接近自然学习且可能具有更高的数据效率,自动生成的数据在 CLEVR 数据集上具有很好的性能和表现,对最新的 VQA 模型和新的测试数据分布具有很好的推广与实现。
Dec, 2017
综述了目前关于具有各种智能技能的智能机器人在 3D 环境中进行导航的研究领域,着重介绍了在这一领域内的各种高级技能,例如:感知局部观察视觉输入,理解跨模态的指令等等,并探讨了未来的研究方向及挑战。
Jul, 2021
本文介绍了一项新的 AI 任务 -- 实体问答(EmbodiedQA),其中智能体在随机位置生成于 3D 环境中,通过主动感知、语言理解、目标导向的导航、常识推理和语言行动化等一系列 AI 技能完成问答任务,同时我们也开发了 EmbodiedQA 环境、端到端训练的强化学习智能体和评估协议。
Nov, 2017
本文提出了一个交互式学习框架以及多种学习方法应对视觉和语言导航任务中出现的模糊情况,引入强化学习并设计奖励塑形项使智能体仅在必要时提问,同时展示了持续学习策略的有效性。
Dec, 2019
提出一种学习框架,使代理程序在具有未知位置的目标的肢体视觉导航任务中积极寻求帮助并通过不断的实践训练,在不总能得到反馈的情况下学会了有效地寻求帮助和提供足够的鲁棒性
Jun, 2022
提出一种名为 “行动前询问”(Asking Before Action,ABA)的方法,利用自然语言引导大型语言模型(LLMs)在未知环境中主动查询外部知识,从而增强其效率和性能,实验证明该方法在 ALFWorld 等体验决策基准中表现出更好的性能。
May, 2023
本文提出了一种基于知识的具身问答 (Knowledge-based Embodied Question Answering, K-EQA) 任务,其中智能体通过利用知识来探索环境以回答各种问题。为解决这一问题,本文提出了一种基于神经程序合成推理的新框架,同时进行外部知识和 3D 场景图的联合推理,以实现导航和问答。实验结果表明,该框架能够在具身环境中回答更加复杂和现实的问题,并且该方法也适用于多智能体场景。
Sep, 2021
长期愿景是提高代理者和环境的感知、理解和交互能力,以实现具体导航的视觉 - 语言导航(VLN)作为实现具体导航的核心研究路径,关注代理者如何使用自然语言与人类进行有效沟通,接收和理解指令,并最终依靠视觉信息实现准确的导航。此综述系统回顾了 VLN 的研究进展并详细介绍了具体导航的研究方向,包括系统架构、基于方法的研究和常用基准数据集,全面分析了当前研究面临的问题和挑战,并探讨了该领域的未来发展方向,旨在为研究人员提供实用的参考。
Feb, 2024
本文研究了具体化视觉主动学习任务,该任务通过选择性的视野请求注释来探索三维环境,以获取场景理解,我们通过开发一系列智能体来研究具体化视觉主动学习,其中智能体配备语义分割网络,并使用深度强化学习以及奖励函数平衡任务性能和必要注释数据请求,得到了可靠的结果。
Dec, 2020
EmBERT 是一种基于 transformer 的模型,具有语言指导的目的完成能力。它是第一个能够成功处理 ALFRED 的历史记录、多模态的长时间跨度的 transformer 模型,同时也是第一个在 ALFRED 中使用对象导航目标的模型。
Aug, 2021