多层级组合推理的互动指令跟随

AAAIAug, 2023

Multi-Level Compositional Reasoning for Interactive Instruction Following

Suvaansh Bhambri, Byeonghwi Kim, Jonghyun Choi

TL;DR使用多层次组合推理代理（MCR-Agent）将任务分解为多个子目标，分别处理导航和交互，实现了对复杂任务的有效执行，并在效率指标上相较于现有技术获得了 2.03％的绝对增益，无需使用基于规则的计划或语义空间记忆。

Abstract

robotic agents performing domestic chores by natural language directives are required to master the complex job of navigating environment and interacting with objects in the environments. The tasks given to the agents are often composite thus are challenging as completing them require

robotic agents compositional reasoning navigation interaction subgoals

发现论文，激发创造

交互式机器人操作的混合组合推理方法

本文介绍了一种神经符号 (混合) 组合推理模型，以将语言引导的视觉推理与机器人操作相结合。该模型通过使用共享的原始技能库以任务非特定的方式处理所有情况。通过语言解析器将输入查询映射为由这些原语组成的可执行程序取决于上下文。结果表明，该方法达到了非常高的准确性，同时可以进行少量的视觉微调，从而实现了真实场景的可转移性。

Oct, 2022

神经模块化控制 —— 为具身问答而生

该研究提出了一种模块化的方法，利用语言输入学习长期规划的导航策略。他们的分层策略在多个时间尺度上运行，并使用模块化和语义子目标，通过模仿学习和强化学习相结合的方法在 EQA 基准上表现出色，无论是在导航还是问题回答方面均优于前人工作。

Oct, 2018

自然语言作为策略：利用 LLMs 进行坐标级体验控制的推理

我们展示了使用 LLMs 解决机器人动作规划问题的实验结果。与其它方法不同，我们的方法通过自然语言推理获取任务和场景对象的文本描述，并输出坐标级控制命令，从而减少中间表示代码作为策略的必要性。我们的方法在多模态提示仿真基准上进行评估，证明了自然语言推理改善成功率的潜力，并展示了利用自然语言描述将机器人技能从已知任务转移到以前未见任务的可能性。

Mar, 2024

PRIMA: 多任务推理智能体内的规划推理器

本研究提出了一个计划推理框架并采用深度强化学习的方式进行训练，旨在解决多任务推理中公共的难题，即如何保持广泛的推理能力和高效的特定任务表现。通过共享推理规则和选择合适的推理路径，该模型在多个领域的实验中取得了良好的效果。

Feb, 2022

使用语言的交互式分层指导

使用语言命令实现上下层结构分离的强化学习方法，在长期规划任务中能够有效提高任务样本效率并保持可解释性和人工干预能力。

Oct, 2021

MCP：利用乘法组合策略学习可组合的层次控制

本研究提出了一种用于学习可重复使用的运动技能并将其组合为复杂行为的方法，该方法称为 “可组合的原语”，可以将代理人的技能分解为基本元素，这些基本元素可以通过乘法组合同时激活，从而使基本元素能够相互传输和重组，以适应新任务的需要，并演示了该方法在模拟环境中提取可组合的技能并重用这些技能来解决连续控制任务的能力。

May, 2019

多智能体强化学习中的递归推理图

采用递归推理模型和中央训练 - 分散执行框架的多智能体强化学习算法，能够帮助学习代理更好地合作或竞争，取得了多个多智能体粒子和机器人游戏中的最佳性能。

Mar, 2022

可解释化多智能体强化学习的概念学习

本文介绍了一种将领域专家的可解释概念纳入到多智能体强化学习模型中的方法，以提高模型的解释性和稳定性，提高性能和样本效率。

Feb, 2023

层次化跨模态机器人视觉语言导航智能体

该研究论文提出了一种基于连续三维重建环境的机器人视觉和语言导航（Robo-VLN）的设定，并利用分层决策，模块化训练和分离推理和模仿的策略，成功地解决了 Robo-VLN 这一新任务。通过使用 HCM 代理，研究者展示了比现有基线效果更好的结果，为 Robo-VLN 创造了新的基准。

Apr, 2021

使用强化学习进行视觉概念的组合学习

深度强化学习代理需要数百万次训练以解决与指令相关的导航任务，对于其泛化到新颖指令组合的能力还不清楚。然而，有趣的是，儿童能够将基于语言的指令分解并导航到所指对象，即使他们以前没有见过这种查询的组合。因此，我们创建了三个 3D 环境来研究深度强化学习代理如何学习和组合基于颜色和形状的组合指令来解决空间导航任务中的新颖组合。首先，我们探索代理是否能进行组合学习，并且它们是否可以利用冻结的文本编码器（例如 CLIP，BERT）在较少的训练次数内学习词组合。接下来，我们证明当代理在形状或颜色概念上预训练时，它们解决未见组合指令所需的训练次数减少了 20 倍。最后，我们展示了在概念和组合学习上进行预训练的代理在评估时的零样本状态下，对新的颜色 - 形状 1 - 形状 2 视觉对象组合获得了显著更高的奖励。总体而言，我们的结果凸显了通过强化学习增强代理组合词语的能力以及其对新组合的零样本泛化能力所需的基础。

Sep, 2023