重新审视 EmbodiedQA：一个简单的基准线和更多

Apr, 2019

重新审视 EmbodiedQA：一个简单的基准线和更多

Revisiting EmbodiedQA: A Simple Baseline and Beyond

Yu Wu, Lu Jiang, Yi Yang

TL;DR该论文在 Embodied Question Answering (EmbodiedQA) 中通过调整基线优化并引入蒸馏网络的方法，提高了在新场景下代理策略的泛化性，显著提升了导航能力。

Abstract

In embodied question answering (EmbodiedQA), an agent interacts with an environment to gather necessary information for answering user questions. Existing works have laid a solid foundation towards solving this interesting problem. But the current performance, especially in

embodied question answering agent-environment interaction navigation baseline optimization distillation network

发现论文，激发创造

盲目基准测试用于具身化问答

本论文针对 “实体位置回答问题 (Embodied Question Answering)” 问题，探索盲基线 (仅问题，无视环境和视觉信息) 的应用，并通过实验在 EQAv1 数据集上表明在除极近物体的情况下，盲基线能够实现 EmbodiedQA 任务的最优结果。

Nov, 2018

具身化问答

本文介绍了一项新的 AI 任务 -- 实体问答（EmbodiedQA），其中智能体在随机位置生成于 3D 环境中，通过主动感知、语言理解、目标导向的导航、常识推理和语言行动化等一系列 AI 技能完成问答任务，同时我们也开发了 EmbodiedQA 环境、端到端训练的强化学习智能体和评估协议。

Nov, 2017

VideoNavQA: 填补视觉与行为问答之间的差距

本文提出了一种基于身体的问答任务，即 Embodied Question Answering，通过放置一个 agent 在 3D 环境中，学习结合场景理解、导航和语言理解等能力，实现在视觉世界中进行复杂推理。为了探索 EQA 系列任务的可行性，我们构建了 VideoNavQA 数据集，评估了各种模型在此数据集上的表现。

Aug, 2019

基于知识的具身化问答

本文提出了一种基于知识的具身问答 (Knowledge-based Embodied Question Answering, K-EQA) 任务，其中智能体通过利用知识来探索环境以回答各种问题。为解决这一问题，本文提出了一种基于神经程序合成推理的新框架，同时进行外部知识和 3D 场景图的联合推理，以实现导航和问答。实验结果表明，该框架能够在具身环境中回答更加复杂和现实的问题，并且该方法也适用于多智能体场景。

Sep, 2021

基于地图的模块化方法用于零说明笔体问答

提出了一种基于地图的模块化 EMQA 方法，通过基于边界的地图创建，使用支持开放词汇表的基础模型，使得真实机器人能够在未知环境中导航，并针对未知问题答案对进行处理，在虚拟环境和两个真实家庭环境上进行了综合实验，证明了方法在真实世界中的有效性。

May, 2024

多目标身体化问答

本研究提出了一种基于模块化架构和可执行子程序的多目标环境问答（MT-EQA）技术，可以有效解决问答中存在多个目标时的语义分析和推理问题，得到了优于现有方法和基准的实验效果。

Apr, 2019

通过问答学习实体视觉导航和任务完成

该研究提出一种名为 ELBA 的模型，以增强具有互动人类能力的代理，通过问答实现动态获取附加信息，以提高任务完成性能，并在 TEACH 视觉对话导航和任务完成数据集上进行了评估。

Feb, 2023

探索直至自信：面向体验式问答的高效探索

我们提出了一种基于语义推理和视觉语言模型的方法，通过构建语义地图和使用自校准来提高机器人的提问回答和探索效率。

Mar, 2024

尽可能简单地构建神经问答

本文提出了一个简单的构建神经 QA 基线系统的启发式方法，并发现了两种必要的构建高性能神经 QA 系统的因素：第一，处理上下文时需要注意问题单词；第二，需要超越简单的词袋建模，例如循环神经网络。我们的结果表明，满足这两个要求的 FastQA 系统可以与现有模型实现非常有竞争力的性能。我们认为这一令人惊讶的发现将之前系统的结果和最近 QA 数据集的复杂性放在了一个更加客观的角度。

Mar, 2017

展示、询问、关注和回答：视觉问答的强大基线

本文介绍了一种新的视觉问答任务的基线模型，它可以根据图像的内容和自然语言的问题准确地产生答案，并取得了在不平衡和平衡的 VQA 基准测试中的最新成果。

Apr, 2017