语言瓶颈下的政策学习

May, 2024

Policy Learning with a Language Bottleneck

Megha Srivastava, Cedric Colas, Dorsa Sadigh, Jacob Andreas

TL;DR现代AI系统如自动驾驶汽车和游戏代理实现了超人类的表现，但是通常缺乏类似人类的特征，如泛化能力、可解释性和人机互操作性。我们通过受到人类语言和决策之间丰富交互的启发，引入了Policy Learning with a Language Bottleneck（PLLB）框架，使AI代理能够生成捕捉其最有回报行为背后策略的语言规则。通过在双人通信游戏、解迷任务和两个图像重构任务中展示，PLLB代理不仅能够学习更可解释和具有泛化性的行为，而且还可以与人类用户共享所学规则，实现更有效的人机协调。

Abstract

Modern ai systems such as self-driving cars and game-playing agents achieve superhuman performance, but often lack human-like features such as generalization, →

发现论文，激发创造

针对智能代理人自然语言交流的定期策略优化

提出一个可以通过联合推理视觉观察和语言输入来学习自然语言指令的新型策略优化算法，该训练范式提供了有效的探索和更好的泛化能力，相比现有的集成模型，我们提出的最佳模型在块世界环境中的执行错误率可以大幅降低超过50％，同时还包括系统性的研究以展示我们RL算法的探索策略。

Jun, 2018

瓶颈模拟器：一种基于模型的深度强化学习方法

提出了一种基于模型的强化学习方法——瓶颈模拟器，通过学习环境的因式分解的过渡模型和滚动模拟来从很少的例子中学习一种有效的策略，在自然语言处理任务上得到了优异的表现。

Jul, 2018

通过生成和遵循自然语言指令进行分层决策

使用自然语言隐式指令作为复杂动作的表达和组合，而不是直接选择微操作，本文基于76,000个自然语言指令和操作的数据集在实时策略游戏环境中训练模型，结果表明使用自然语言作为潜变量的模型在动作表达中的有效性显著优于直接模仿人类动作的模型，并且语言的组合结构对其有效性具有关键作用。同时提供了代码、模型和数据。

Jun, 2019

通过阅读实现在新环境动态下的泛化

通过阅读策略学习器实现语言理解，是实现强化学习中泛化到新环境的有前途的方法。本文提出了一个基于文本阅读的策略学习问题，通过程序生成环境动态并相应地生成动态的语言描述。通过课程学习，我们的模型能够在需要几个推理和指代步骤的复杂任务上提供出色的策略。

Oct, 2019

监督与自我对弈在新兴通讯中的相互作用

本研究探讨了一种新的教授人工智能代理人使用自然语言的方法，发现在通过受监督的学习奖励和自我对弈的信号两种方式的训练后比直接从头开始进行自我学习效果更好，并提出了一种基于人群的方法以进一步提高表现。

Feb, 2020

ELLA: 通过学习语言抽象进行探索

ELLA是一种基于奖励塑形的方法，在语言指令与简单低级组成件之间建立相关性，以提高稀疏奖励环境下机器人智能体的样本效率。

Mar, 2021

面向人工智能协同的语言指导强化学习

在缺乏高质量人类行为数据的情况下，使用预训练的大型语言模型生成人类语言指令的先验策略并规范化强化学习目标可以帮助人工智能代理与人类协作，并在多智能体强化学习问题中实现人工智能代理与人类偏好一致的均衡解。案例中验证了该框架的有效性。

Apr, 2023

ChessGPT：连接策略学习和语言建模

在本论文中，我们提出了一个名为ChessGPT的神经网络模型，该模型整合了供强化学习所需的历史政策数据和自然语言形式的分析洞察力，从而使智能体能够更好地解决决策问题和棋类游戏。

Jun, 2023

语言引导的世界模型：一种基于模型的人工智能控制方法

安装概率世界模型到人工智能代理中，为人类与控制这些代理打开了一个高效的交流途径；我们开发了一种名为语言引导的世界模型（LWMs），通过阅读语言描述来捕捉环境动态，提高了代理的通信效率，同时允许人类用简洁的语言反馈在多个任务中同时改变行为。该研究证明了当前最先进的Transformer架构在该基准测试上表现不佳，激励我们设计更强大的架构。通过模拟展示了我们提出的LWMs的实用性，使代理能够在执行前生成和讨论计划，增强了代理的可解释性和安全性，并使其在真实环境中的性能提高了三倍，而无需在该环境中进行任何交互式经验的收集。

Jan, 2024

通过行为分解进行策略优化来增强语言代理

通过将语言代理优化从动作层面分解到令牌层面，本文提出了通过行为分解实现更细粒度的信用分配和对于不受限制的行动空间中可管理的优化复杂性，进而增强了语言代理与交互环境的学习效率和泛化能力。

May, 2024