使用分层潜在语言进行一次性示范学习

Mar, 2022

使用分层潜在语言进行一次性示范学习

One-Shot Learning from a Demonstration with Hierarchical Latent Language

Nathaniel Weir, Xingdi Yuan, Marc-Alexandre Côté, Matthew Hausknecht, Romain Laroche...

TL;DR使用基于描述性语言的学习方法，研究设计了一个环境来测试智能体的泛化技能，并通过多个测试评估方案和测试集发现，在随机任务拆分的情况下，文本推理的智能体更适合应对这一挑战。

Abstract

Humans have the capability, aided by the expressive compositionality of their language, to learn quickly by demonstration. They are able to describe unseen task-performing procedures and generalize their execution to other contexts. In this work, we introduce DescribeWorld, an environment designed to test this sort of →

demonstration learning generalization skill grounded agents latent language text-based inference

发现论文，激发创造

向人类请教：利用人类指令提升强化学习的泛化能力

本文提出通过使用自然语言指令和行动轨迹演示来自动分解分层任务，以解决在稀疏奖励的强化学习设置中的复杂多任务问题，并证明人类演示有助于解决最复杂的任务，同时允许该模型再未见数据的情况下推广学习，从而使训练好的代理人具有可解释的行为。

Nov, 2020

在二维环境中的交互式基于语境的语言习得和推理

基于 2D 迷宫世界，通过虚拟代理学习语言的模型，将语言的生成与理解与其他计算流程分离，从而成功地解决新单词出现的问题。模型可以解释人类可理解的中间输出结果，大幅优于其他五种比较方法。

Jan, 2018

使用语言的交互式分层指导

使用语言命令实现上下层结构分离的强化学习方法，在长期规划任务中能够有效提高任务样本效率并保持可解释性和人工干预能力。

Oct, 2021

在模拟的 3D 世界中的基于场景语言学习

通过增强和无监督学习，训练具备最少先验知识的机器人在仿真 3D 环境中理解自然语言指令，将语言符号与周围物理环境的感知表示和相关的行动序列联系起来，实现语言含义的压缩和提取，从而揭示出关于语言基于感知概念的本质和潜力。

Jun, 2017

LanGWM: 语言引导的世界模型

通过语言为鲁棒的动作选择增强状态抽象技术，利用语言为基础的视觉特征来改进强化学习中的世界模型学习，提高对于复杂任务中的视觉控制的推广性。

Nov, 2023

通过生成和遵循自然语言指令进行分层决策

使用自然语言隐式指令作为复杂动作的表达和组合，而不是直接选择微操作，本文基于 76,000 个自然语言指令和操作的数据集在实时策略游戏环境中训练模型，结果表明使用自然语言作为潜变量的模型在动作表达中的有效性显著优于直接模仿人类动作的模型，并且语言的组合结构对其有效性具有关键作用。同时提供了代码、模型和数据。

Jun, 2019

学习基于知识图谱的文本环境世界模型

该论文聚焦于构建基于文本的游戏环境的世界模型，利用知识图谱和自然语言行动生成模型，提升增强学习智能体在该环境下的效率。通过零样本消融实验，表明该方法显著优于现有的文本世界建模技术及其各自贡献的重要性。

Jun, 2021

语言作为层次深度强化学习的抽象

本文提出了使用语言作为抽象概念的层次强化学习方法，通过学习基本概念和子技能来解决时间延长的任务，构建了开源对象交互环境，证明了采用这种方法，代理可以从原始像素观察中学习解决多样化的任务，语言的组合性质使得学习多种子技能变得关键。

Jun, 2019

用语言导向的时间变分推断进行技能学习

我们提出了一种从专家示范中发现技能的算法，该算法首先利用大型语言模型对轨迹进行初步分割，然后采用层次变分推理框架结合语言模型生成的分割信息，通过合并轨迹段来发现可重用的技能。为了进一步控制压缩和可重用性之间的权衡，我们引入了一种基于最小描述长度原则的新辅助目标，有助于指导这一技能发现过程。我们的结果表明，使用我们的方法装备的代理能够发现有助于加速学习的技能，并在 BabyAI（一个网格世界导航环境）以及 ALFRED（一个家庭仿真环境）的新长期任务中胜过基线技能学习方法。

Feb, 2024

基于经验的语言学习快与慢

文章介绍了如何通过深度神经网络的元学习，分集记忆以及明确的多模态环境来实现迅速绑定，提供了人类认知发展的基本支柱和与人类用户交互的代理的一个潜在的转变能力。

Sep, 2020