PREDILECT: 在强化学习中利用零样本语言推理揭示偏好

Feb, 2024

PREDILECT: 在强化学习中利用零样本语言推理揭示偏好

PREDILECT: Preferences Delineated with Zero-Shot Language-based Reasoning in Reinforcement Learning

Simon Holk, Daniel Marta, Iolanda Leite

TL;DR基于偏好的强化学习已成为机器人学习中的一个新领域，其中人类通过表达对不同状态 - 动作序列的偏好，对机器人行为起到关键作用。为了应对机器人实际政策制定的要求，我们通过扩展每个查询收集的信息，包括偏好和可选的文本提示，解决了样本效率挑战。为了处理额外的查询信息，我们重新制定了奖励学习目标，包含灵活的重点内容 —— 那些包含相对高信息量并与预训练语言模型从文本中零 - shot 处理的特征相关的状态 - 动作对。通过模拟场景和用户研究，我们分析了反馈及其影响，揭示了我们工作的有效性。此外，收集到的集体反馈有助于在模拟的社交导航环境中对机器人进行社会合规轨迹训练。我们提供了训练策略的视频示例，网址为 https:// 此处替换为视频链接

Abstract

preference-based reinforcement learning (RL) has emerged as a new field in robot learning, where humans play a pivotal role in shaping robot behavior by expressing preferences on different sequences of state-acti

preference-based reinforcement learning robot behavior sample-efficiency language model reward learning objectives

发现论文，激发创造

人在环路强化学习的小样本偏好学习

使用多任务学习来实现基于人类反馈的强化学习，通过将偏好模型训练在以前的任务数据上，我们仅需要很少的查询就可以在 Meta-World 中训练出具有更好效果的机器人策略模型。

Dec, 2022

通过从文本的迁移学习进行深度强化学习的人类指令遵循

通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。

May, 2020

深度强化学习从人类偏好中学习

本文研究了使用非专家人类偏好来定义复杂目标的强化学习系统的方法，并且证明此方法可实现许多复杂的强化学习任务，包括 Atari 游戏和模拟机器人，同时也大幅降低了人类监督成本，以及展示了本方法的灵活性，并可成功使用较短时间完成复杂的新颖行为的训练，同时也采用了前人的人类反馈信息和环境。

Jun, 2017

在线偏好中的积极奖励学习

为了实现机器人在不同环境和人类偏好中的适应性，本研究提出了在线稀疏二元偏好查询的方法，通过设计查询和决定何时呈现查询来最大化查询结果的信息价值，从而使得机器人能够快速适应实际应用场景并减轻人类专家的负担，在模拟，人类用户研究和真实机器人实验中，该方法表现优于传统技术并减少人类专家的查询负担。

Feb, 2023

超越人类偏好：通过 LLMs 探索强化学习轨迹的评估与改进

基于偏好的强化学习利用大型语言模型生成自动偏好数据，并通过重构奖励函数来优化强化学习训练，在复杂环境中加速收敛并提高效果。

Jun, 2024

使用语言模型进行奖励设计

本文探讨以自然语言接口为代理奖励函数来简化奖励设计，在强化学习框架下利用大型语言模型对用户目标进行培训，实现智能体与用户目标的对齐，并在 Ultimatum 游戏、矩阵游戏和 DealOrNoDeal 谈判任务中优于通过监督式学习学习的奖励函数训练的 RL 智能体。

Feb, 2023

如何与人工智能对话：指令，描述和自主性

研究从语言中学习以实现语言使用与机器智能的价值对齐，分析了两种不同类别的语言，即指令和描述，运用上下文强化学习进行形式化的建模，并且验证了这种社会学习方法在传统的强化学习任务中可以降低遗憾值。

Jun, 2022

从人类偏好中微调语言模型

本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中，旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务（文本连续生成、摘要），取得了不错的结果，但模型可能会利用人类评估者的简单启发式规则。

Sep, 2019

偏好条件下的语言引导抽象

使用语言模型查询来构建状态抽象，以捕捉机器人学习中人类偏好的变化和指导，通过在模拟实验、用户研究和移动操作任务中的应用来证明其有效性。

Feb, 2024

走向基础模型统一的智能体

通过在强化学习代理中嵌入和利用语言模型和视觉语言模型的能力，我们设计了一个框架，将语言作为核心推理工具，能够处理一系列强化学习挑战，如有效的探索、重用经验数据、调度技能以及从观察中学习，从而改进了在模拟的机器人操作环境中的性能，并展示了如何利用学到的技能解决新任务或模仿人类专家视频。

Jul, 2023