SEABO: 离线模仿学习的简单基于搜索的方法

ICLRFeb, 2024

SEABO: 离线模仿学习的简单基于搜索的方法

SEABO: A Simple Search-Based Method for Offline Imitation Learning

Jiafei Lyu, Xiaoteng Ma, Le Wan, Runze Liu, Xiu Li...

TL;DR通过基于专家数据和未标记数据的简单有效的基于搜索的离线模仿学习方法 SEABO 来获取奖励函数，SEABO 可在只有一个专家轨迹的情况下取得与带有真实奖励的离线强化学习算法相竞争的性能，并在许多任务中优于先前的奖励学习和离线模仿学习方法。

Abstract

offline reinforcement learning (RL) has attracted much attention due to its ability in learning from static offline datasets and eliminating the need of interacting with the environment. Nevertheless, the success of offline RL relies heavily on the offline transitions annotated with re

offline reinforcement learning offline imitation learning seabo reward function expert data

发现论文，激发创造

可持续的在线强化学习用于自动竞价

本文中，我们提出了一种可持续的在线强化学习（SORL）框架，该框架通过与实际广告系统（RAS）直接交互来训练自动出价策略，从而避免了问题在离线虚拟广告系统（VAS）中进行 RL 训练过程。这一方法包括安全高效的在线探索（SER）策略、方差抑制保守 Q 学习（V-CQL）方法等，能够有效地学习自动出价策略并提高自动出价算法的表现。

Oct, 2022

离线强化学习的半监督奖励学习

通过半监督学习算法，探索在人类奖励注释最小的约束下进行奖励学习，从而在缺少奖励函数的情况下培训机器人行为，并发现奖励模型的质量与最终策略之间的关系。

Dec, 2020

意图对齐：离线优化传输的模仿学习

通过从环境中观察专家，尽管没有明确的奖励或动作标签，但模仿智能体仍然可以学习所需行为。借助于最优传输距离的 AILOT 方法，在与数据中蕴含成对的空间距离的意图形式中对状态进行特殊表示，定义了内在奖励函数，改善了其他线下强化学习算法在稀疏奖励任务中的性能，并超过了 D4RL 基准的最新线下模仿学习算法。

Feb, 2024

离线学习：基于演示和无标签经验的学习

本研究提出了一种名为 ORIL 的方法，用于数据驱动的离线机器人学习。该方法结合了观察数据和未标记的数据以及奖励信号，通过增强学习来训练机器人，相对于传统的基于行为克隆的方法，它能更好地利用未标记的经验数据，提高训练的效果。

Nov, 2020

SQIL: 通过稀疏奖励加强学习实现的模仿学习

提出了一种称作 “软 Q 模仿学习” 的新方法，该方法使用强化学习，但不需要学习奖励函数，而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习（GAIL）的方法，可用于标准 Q 学习或离线策略演员 - 评论家算法。

May, 2019

从亚优示例中进行判别器加权的离线模仿学习

本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法，该算法额外引入了一个鉴别器来区分专家和非专家数据，并将其输出作为 behavioural cloning 的损失权重，实验结果表明该算法可以提高回报率和训练速度。

Jul, 2022

模仿引导强化学习

利用有限的模仿数据进行自主性提升的开创性框架 —— 模仿引导强化学习（IBRL），在从像素学习的模拟中实现了 7 个具有挑战性的稀疏奖励连续控制任务的最新性能和样本效率，是 RLPD 方法的 6.4 倍成功率的新亮点。

Nov, 2023

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021

半离线强化学习用于优化文本生成

该研究提出了一种半离线强化学习范式，可在保证探索能力的同时平衡训练成本，同时提供了比较不同强化学习设置的理论基础，并在优化成本、渐近误差和过度拟合误差边界方面提出了最优的强化学习设置。

Jun, 2023

通过最优传输从观察中进行模仿学习

实时观察下的模仿学习 (ILfO) 中，利用最优传输来生成奖励函数，通过状态轨迹的 Wasserstein 距离衡量学习者和专家之间的差异，无需学习模型或对抗学习，可以与任何强化学习算法集成，并适用于 ILfO，能在多个连续控制任务中超越现有方法，在单个专家轨迹无动作观测的情况下实现专家级性能。

Oct, 2023