使用分层潜在语言进行一次性示范学习
本文提出通过使用自然语言指令和行动轨迹演示来自动分解分层任务,以解决在稀疏奖励的强化学习设置中的复杂多任务问题,并证明人类演示有助于解决最复杂的任务,同时允许该模型再未见数据的情况下推广学习,从而使训练好的代理人具有可解释的行为。
Nov, 2020
基于 2D 迷宫世界,通过虚拟代理学习语言的模型,将语言的生成与理解与其他计算流程分离,从而成功地解决新单词出现的问题。模型可以解释人类可理解的中间输出结果,大幅优于其他五种比较方法。
Jan, 2018
通过增强和无监督学习,训练具备最少先验知识的机器人在仿真 3D 环境中理解自然语言指令,将语言符号与周围物理环境的感知表示和相关的行动序列联系起来,实现语言含义的压缩和提取,从而揭示出关于语言基于感知概念的本质和潜力。
Jun, 2017
使用自然语言隐式指令作为复杂动作的表达和组合,而不是直接选择微操作,本文基于 76,000 个自然语言指令和操作的数据集在实时策略游戏环境中训练模型,结果表明使用自然语言作为潜变量的模型在动作表达中的有效性显著优于直接模仿人类动作的模型,并且语言的组合结构对其有效性具有关键作用。同时提供了代码、模型和数据。
Jun, 2019
该论文聚焦于构建基于文本的游戏环境的世界模型,利用知识图谱和自然语言行动生成模型,提升增强学习智能体在该环境下的效率。通过零样本消融实验,表明该方法显著优于现有的文本世界建模技术及其各自贡献的重要性。
Jun, 2021
本文提出了使用语言作为抽象概念的层次强化学习方法,通过学习基本概念和子技能来解决时间延长的任务,构建了开源对象交互环境,证明了采用这种方法,代理可以从原始像素观察中学习解决多样化的任务,语言的组合性质使得学习多种子技能变得关键。
Jun, 2019
我们提出了一种从专家示范中发现技能的算法,该算法首先利用大型语言模型对轨迹进行初步分割,然后采用层次变分推理框架结合语言模型生成的分割信息,通过合并轨迹段来发现可重用的技能。为了进一步控制压缩和可重用性之间的权衡,我们引入了一种基于最小描述长度原则的新辅助目标,有助于指导这一技能发现过程。我们的结果表明,使用我们的方法装备的代理能够发现有助于加速学习的技能,并在 BabyAI(一个网格世界导航环境)以及 ALFRED(一个家庭仿真环境)的新长期任务中胜过基线技能学习方法。
Feb, 2024