元强化学习的附带简易具身语言学习

ICMLJun, 2023

元强化学习的附带简易具身语言学习

Simple Embodied Language Learning as a Byproduct of Meta-Reinforcement Learning

Evan Zheran Liu, Sahaana Suri, Tong Mu, Allan Zhou, Chelsea Finn

TL;DR该研究探讨了机器学习模型是否能够通过非语言任务间接学习语言，设计了一个含有变化语言环境和目的地的综合任务环境，通过元强化学习算法，培养出能够正确理解渐新语言和 floor plans 的智能体。

Abstract

Whereas machine learning models typically learn language by directly training on language tasks (e.g., next-word prediction), language emerges in human children as a byproduct of solving non-language tasks (e.g., acquiring food). Motivated by this observation, we ask: can →

machine learning embodied reinforcement learning language acquisition multi-task environment meta-rl algorithms

发现论文，激发创造

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

基于自然语言启发的强化学习综述

提出了将自然语言理解与强化学习紧密结合的想法，并对现有技术及未来研究方向进行了调研。

Jun, 2019

走向基础模型统一的智能体

通过在强化学习代理中嵌入和利用语言模型和视觉语言模型的能力，我们设计了一个框架，将语言作为核心推理工具，能够处理一系列强化学习挑战，如有效的探索、重用经验数据、调度技能以及从观察中学习，从而改进了在模拟的机器人操作环境中的性能，并展示了如何利用学到的技能解决新任务或模仿人类专家视频。

Jul, 2023

多模态基于世界模型的通用型智能体

通过引入多模态基础世界模型，GenRL 代理学习框架能够将基础视觉语言模型的表示与生成式世界模型的潜在空间连接和对齐，从而克服了现有基础视觉语言模型在不同领域上的问题，并在多个运动和操作领域展现了强大的多任务泛化性能。此外，通过引入无数据强化学习策略，还为通用性的综合模型基于强化学习的全能代理奠定了基础。

Jun, 2024

从对称性学习：具有对称数据和语言指示的元强化学习

提出了一种双 MDP 元强化学习方法，该方法将语言指令和对称数据结合到元 RL 中，能够显著提高元强化学习的泛化能力和学习效率。

Sep, 2022

从像素和自然语言指令中学习解决体素建筑任务

采用预训练语言模型生成行动计划是一种很有前途的研究策略，本文提出了一种新的方法，将语言模型与强化学习相结合，用于在类似 Minecraft 的环境中按照自然语言指令构建对象，在 IGLU 2022 竞赛中形成了强化学习基线。

Nov, 2022

语言作为层次深度强化学习的抽象

本文提出了使用语言作为抽象概念的层次强化学习方法，通过学习基本概念和子技能来解决时间延长的任务，构建了开源对象交互环境，证明了采用这种方法，代理可以从原始像素观察中学习解决多样化的任务，语言的组合性质使得学习多种子技能变得关键。

Jun, 2019

元强化学习作为任务推断

本文提出一种在元强化学习中用于解决任务信息受限问题的方法，通过利用各种特权信息，分别学习策略和任务信念来解决部分可观测马尔可夫决策问题，从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。

May, 2019

基于经验的语言学习快与慢

文章介绍了如何通过深度神经网络的元学习，分集记忆以及明确的多模态环境来实现迅速绑定，提供了人类认知发展的基本支柱和与人类用户交互的代理的一个潜在的转变能力。

Sep, 2020

通过从文本的迁移学习进行深度强化学习的人类指令遵循

通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。

May, 2020