神经模块化控制 —— 为具身问答而生

Oct, 2018

神经模块化控制 —— 为具身问答而生

Neural Modular Control for Embodied Question Answering

Abhishek Das, Georgia Gkioxari, Stefan Lee, Devi Parikh, Dhruv Batra

TL;DR该研究提出了一种模块化的方法，利用语言输入学习长期规划的导航策略。他们的分层策略在多个时间尺度上运行，并使用模块化和语义子目标，通过模仿学习和强化学习相结合的方法在 EQA 基准上表现出色，无论是在导航还是问题回答方面均优于前人工作。

Abstract

We present a modular approach for learning policies for navigation over long planning horizons from language input. Our hierarchical policy operates at multiple timescales, where the higher-level master policy pr

navigation long planning horizons hierarchical policy imitation learning reinforcement learning

发现论文，激发创造

使用主动神经 SLAM 学习探索

论文介绍了一种名为 Active Neural SLAM 的模块化和分层方法来学习探索 3D 环境的策略，并在真实的 3D 环境中进行实验，结果表明该方法比过去的学习和几何方法更有效。

Apr, 2020

基于地图的模块化方法用于零说明笔体问答

提出了一种基于地图的模块化 EMQA 方法，通过基于边界的地图创建，使用支持开放词汇表的基础模型，使得真实机器人能够在未知环境中导航，并针对未知问题答案对进行处理，在虚拟环境和两个真实家庭环境上进行了综合实验，证明了方法在真实世界中的有效性。

May, 2024

多层级组合推理的互动指令跟随

使用多层次组合推理代理（MCR-Agent）将任务分解为多个子目标，分别处理导航和交互，实现了对复杂任务的有效执行，并在效率指标上相较于现有技术获得了 2.03％的绝对增益，无需使用基于规则的计划或语义空间记忆。

Aug, 2023

自然语言子目标的层次强化学习

我们提出了一种新颖的方法，利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据，通过软约束目标空间，对一组长期任务进行层次强化学习，从而实现在现实或开放环境中实现目标导向行为的挑战。

Sep, 2023

分层对话策略学习的子目标发现

提出了一种分而治之的方法，利用 Subgoal Discovery Network 将复杂目标定向任务分解为一组较简单的子目标，并使用这些子目标通过分层强化学习来学习多级策略，建立了对话代理程序，已应用于旅行计划中，其学习到的子目标通常易于被人理解。

Apr, 2018

基于向量量化模型的分层仿真学习

本文提出使用强化学习来识别专家轨迹中的子目标，从而构建一个向量量化生成模型，以进行子目标级别的规划，并在复杂的长期决策问题上表现出色，优于现有技术。

Jan, 2023

探索直至自信：面向体验式问答的高效探索

我们提出了一种基于语义推理和视觉语言模型的方法，通过构建语义地图和使用自校准来提高机器人的提问回答和探索效率。

Mar, 2024

可解释多跳推理的自组装模块化网络

本文提出了一个解释性的、基于控制器的自组装神经模块网络，设计了四个新颖的模块（Find、Relocate、Compare、NoOp）来执行不同类型的语言推理，动态推断一系列推理模块以构建整个网络，进一步证明了该模型的可解释性，通过三个分析表面了该模型的细节信息，相比较于传统的单跳模型，该模型在众多自然语言推理任务中有着较好的表现。

Sep, 2019

基于深度强化学习策略的分层控制器合成

我们提出了一种新颖的方法来解决以马尔可夫决策过程（MDP）建模的环境的控制器设计问题。具体而言，我们考虑了一个层次 MDP，该图的每个顶点由一个名为 “房间” 的 MDP 填充。我们首先应用深度强化学习（DRL）来获取每个房间的低级策略，适用于未知结构的大型房间。然后，我们应用反应合成来获取一个高级规划器，该规划器选择在每个房间中执行哪个低级别策略。在综合规划器中的核心挑战是对房间建模的需求。我们通过开发一种 DRL 过程来训练简洁的 “潜在” 策略以及对其性能的 PAC 保证来解决这一挑战。与以前的方法不同，我们的方法避开了模型蒸馏步骤。我们的方法解决了 DRL 中稀疏奖励的问题，并实现了低级策略的可重用性。我们通过一个案例研究展示了可行性，该研究涉及在移动障碍物中的智能体导航。

Feb, 2024

FILM: 采用模块化方法遵循语言指令

提出了一种使用语义地图和语义搜索策略实现自然语言目标的模块化方法，不需要使用专家轨迹和低级语言指令，并使用少量数据取得了 SOTA 性能。同时，该研究表明，显式的空间记忆和语义搜索策略可以为状态跟踪和引导提供更强大和更通用的表示方式，即使没有专家轨迹或低级指令。

Oct, 2021