多层级组合推理的互动指令跟随
本文介绍了一种神经符号 (混合) 组合推理模型,以将语言引导的视觉推理与机器人操作相结合。该模型通过使用共享的原始技能库以任务非特定的方式处理所有情况。通过语言解析器将输入查询映射为由这些原语组成的可执行程序取决于上下文。结果表明,该方法达到了非常高的准确性,同时可以进行少量的视觉微调,从而实现了真实场景的可转移性。
Oct, 2022
该研究提出了一种模块化的方法,利用语言输入学习长期规划的导航策略。他们的分层策略在多个时间尺度上运行,并使用模块化和语义子目标,通过模仿学习和强化学习相结合的方法在 EQA 基准上表现出色,无论是在导航还是问题回答方面均优于前人工作。
Oct, 2018
我们展示了使用 LLMs 解决机器人动作规划问题的实验结果。与其它方法不同,我们的方法通过自然语言推理获取任务和场景对象的文本描述,并输出坐标级控制命令,从而减少中间表示代码作为策略的必要性。我们的方法在多模态提示仿真基准上进行评估,证明了自然语言推理改善成功率的潜力,并展示了利用自然语言描述将机器人技能从已知任务转移到以前未见任务的可能性。
Mar, 2024
本研究提出了一个计划推理框架并采用深度强化学习的方式进行训练,旨在解决多任务推理中公共的难题,即如何保持广泛的推理能力和高效的特定任务表现。通过共享推理规则和选择合适的推理路径,该模型在多个领域的实验中取得了良好的效果。
Feb, 2022
本研究提出了一种用于学习可重复使用的运动技能并将其组合为复杂行为的方法,该方法称为 “可组合的原语”,可以将代理人的技能分解为基本元素,这些基本元素可以通过乘法组合同时激活,从而使基本元素能够相互传输和重组,以适应新任务的需要,并演示了该方法在模拟环境中提取可组合的技能并重用这些技能来解决连续控制任务的能力。
May, 2019
该研究论文提出了一种基于连续三维重建环境的机器人视觉和语言导航(Robo-VLN)的设定,并利用分层决策,模块化训练和分离推理和模仿的策略,成功地解决了 Robo-VLN 这一新任务。通过使用 HCM 代理,研究者展示了比现有基线效果更好的结果,为 Robo-VLN 创造了新的基准。
Apr, 2021
深度强化学习代理需要数百万次训练以解决与指令相关的导航任务,对于其泛化到新颖指令组合的能力还不清楚。然而,有趣的是,儿童能够将基于语言的指令分解并导航到所指对象,即使他们以前没有见过这种查询的组合。因此,我们创建了三个 3D 环境来研究深度强化学习代理如何学习和组合基于颜色和形状的组合指令来解决空间导航任务中的新颖组合。首先,我们探索代理是否能进行组合学习,并且它们是否可以利用冻结的文本编码器(例如 CLIP,BERT)在较少的训练次数内学习词组合。接下来,我们证明当代理在形状或颜色概念上预训练时,它们解决未见组合指令所需的训练次数减少了 20 倍。最后,我们展示了在概念和组合学习上进行预训练的代理在评估时的零样本状态下,对新的颜色 - 形状 1 - 形状 2 视觉对象组合获得了显著更高的奖励。总体而言,我们的结果凸显了通过强化学习增强代理组合词语的能力以及其对新组合的零样本泛化能力所需的基础。
Sep, 2023