GLIDE-RL: 基于强化学习的通过演示进行语言指导

Jan, 2024

GLIDE-RL: 基于强化学习的通过演示进行语言指导

GLIDE-RL: Grounded Language Instruction through DEmonstration in RL

Chaitanya Kharyal, Sai Krishna Gottipati, Tanmay Kumar Sinha, Srijita Das, Matthew E. Taylor

TL;DR通过多个教师 - 学生代理的课程学习框架，GLIDE-RL 提出了一种训练自然语言指令遵循的强化学习代理的新算法，通过利用强化学习、课程学习、连续学习和语言模型的进展，能够适应以前未见过的语言指令并验证了其有效性。

Abstract

One of the final frontiers in the development of complex human - AI collaborative systems is the ability of ai agents to comprehend the natural language and perform tasks accordingly. However, training efficient reinfor

ai agents reinforcement learning natural language comprehension curriculum learning glide-rl

发现论文，激发创造

在模拟的 3D 世界中的基于场景语言学习

通过增强和无监督学习，训练具备最少先验知识的机器人在仿真 3D 环境中理解自然语言指令，将语言符号与周围物理环境的感知表示和相关的行动序列联系起来，实现语言含义的压缩和提取，从而揭示出关于语言基于感知概念的本质和潜力。

Jun, 2017

深度强化学习中的迁移语言基础

本文介绍了一种利用自然语言驱动强化学习传递的方法，并使用模型化强化学习方法和实体描述等技术，在不同环境下实现了更好的性能表现。

Aug, 2017

基于演示引导的强化学习与学得技能

本文提出了一种基于示教引导的强化学习方法，该方法通过提取任务中共享的子任务结构，从而显著提高学习效率，并且在迷宫导航和复杂机器人操纵任务上进行了验证。

Jul, 2021

面向人工智能协同的语言指导强化学习

在缺乏高质量人类行为数据的情况下，使用预训练的大型语言模型生成人类语言指令的先验策略并规范化强化学习目标可以帮助人工智能代理与人类协作，并在多智能体强化学习问题中实现人工智能代理与人类偏好一致的均衡解。案例中验证了该框架的有效性。

Apr, 2023

通过从文本的迁移学习进行深度强化学习的人类指令遵循

通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。

May, 2020

在二维环境中的交互式基于语境的语言习得和推理

基于 2D 迷宫世界，通过虚拟代理学习语言的模型，将语言的生成与理解与其他计算流程分离，从而成功地解决新单词出现的问题。模型可以解释人类可理解的中间输出结果，大幅优于其他五种比较方法。

Jan, 2018

走向基础模型统一的智能体

通过在强化学习代理中嵌入和利用语言模型和视觉语言模型的能力，我们设计了一个框架，将语言作为核心推理工具，能够处理一系列强化学习挑战，如有效的探索、重用经验数据、调度技能以及从观察中学习，从而改进了在模拟的机器人操作环境中的性能，并展示了如何利用学到的技能解决新任务或模仿人类专家视频。

Jul, 2023

BabyAI++: 初探基于实体的语言学习

该研究针对强化学习中的新环境和动态环境，通过使用描述性文本探究使用教育性文本是否有助于代理在这些环境下的泛化，并通过 BabyAI++ 开发了一种基于视觉语言学习的新方法，实验结果表明，使用描述性文本可以提高 RL 代理在不同动态环境下的泛化能力。

Apr, 2020

通过语言动态蒸馏来改善策略学习

通过 Language Dynamics Distillation (LDD) 方法，将语言展示与环境相结合，通过强化学习预训练模型来预测语言关系，从而提高样本效率以及跨环境的泛化能力。

Sep, 2022

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018