VideoNavQA: 填补视觉与行为问答之间的差距

Aug, 2019

VideoNavQA: 填补视觉与行为问答之间的差距

VideoNavQA: Bridging the Gap between Visual and Embodied Question Answering

Cătălina Cangea, Eugene Belilovsky, Pietro Liò, Aaron Courville

TL;DR本文提出了一种基于身体的问答任务，即 Embodied Question Answering，通过放置一个 agent 在 3D 环境中，学习结合场景理解、导航和语言理解等能力，实现在视觉世界中进行复杂推理。为了探索 EQA 系列任务的可行性，我们构建了 VideoNavQA 数据集，评估了各种模型在此数据集上的表现。

Abstract

embodied question answering (EQA) is a recently proposed task, where an agent is placed in a rich 3d environment and must act based solely on its egocentric input to answer a given question. The desired outcome i

embodied question answering 3d environment navigation language understanding videonavqa dataset

发现论文，激发创造

多目标身体化问答

本研究提出了一种基于模块化架构和可执行子程序的多目标环境问答（MT-EQA）技术，可以有效解决问答中存在多个目标时的语义分析和推理问题，得到了优于现有方法和基准的实验效果。

Apr, 2019

基于地图的模块化方法用于零说明笔体问答

提出了一种基于地图的模块化 EMQA 方法，通过基于边界的地图创建，使用支持开放词汇表的基础模型，使得真实机器人能够在未知环境中导航，并针对未知问题答案对进行处理，在虚拟环境和两个真实家庭环境上进行了综合实验，证明了方法在真实世界中的有效性。

May, 2024

基于知识的具身化问答

本文提出了一种基于知识的具身问答 (Knowledge-based Embodied Question Answering, K-EQA) 任务，其中智能体通过利用知识来探索环境以回答各种问题。为解决这一问题，本文提出了一种基于神经程序合成推理的新框架，同时进行外部知识和 3D 场景图的联合推理，以实现导航和问答。实验结果表明，该框架能够在具身环境中回答更加复杂和现实的问题，并且该方法也适用于多智能体场景。

Sep, 2021

探索直至自信：面向体验式问答的高效探索

我们提出了一种基于语义推理和视觉语言模型的方法，通过构建语义地图和使用自校准来提高机器人的提问回答和探索效率。

Mar, 2024

S-EQA: 应对落地问答中的情境查询

我们介绍了一种新的问题回答方法，通过 Prompt-Generate-Evaluate (PGE) 方案包装 LLM 的输出来生成独特的情境查询，展示出第一个解决情境查询的数据集 S-EQA。

May, 2024

具身化问答

本文介绍了一项新的 AI 任务 -- 实体问答（EmbodiedQA），其中智能体在随机位置生成于 3D 环境中，通过主动感知、语言理解、目标导向的导航、常识推理和语言行动化等一系列 AI 技能完成问答任务，同时我们也开发了 EmbodiedQA 环境、端到端训练的强化学习智能体和评估协议。

Nov, 2017

重新审视 EmbodiedQA：一个简单的基准线和更多

该论文在 Embodied Question Answering (EmbodiedQA) 中通过调整基线优化并引入蒸馏网络的方法，提高了在新场景下代理策略的泛化性，显著提升了导航能力。

Apr, 2019

多重语言模型系统下的具身化问题回答

在多智体环境中，通过多个大型语言模型代理独立回答用户查询以产生鲁棒性答案，并使用中心答案模型进行聚合，结果显示比其他聚合方法（如投票方案和辩论）具有 50% 更高的准确率。此外，通过排列特征重要性方法进行关键特征分析，量化了中心答案模型对每个独立代理和查询上下文的依赖性。

Jun, 2024

盲目基准测试用于具身化问答

本论文针对 “实体位置回答问题 (Embodied Question Answering)” 问题，探索盲基线 (仅问题，无视环境和视觉信息) 的应用，并通过实验在 EQAv1 数据集上表明在除极近物体的情况下，盲基线能够实现 EmbodiedQA 任务的最优结果。

Nov, 2018

在动态音视频场景中学习回答问题

本文研究了 Audio-Visual Question Answering（AVQA）任务，提出了一个包含超过 45K 个问题 - 答案对的 MUSIC-AVQA 数据集并使用多模态知识和视听场景的时空推理来解决该问题，结果表明我们的方法优于现有的 A-V 和 AVQA 方法。

Mar, 2022