离线学习：基于演示和无标签经验的学习

Nov, 2020

离线学习：基于演示和无标签经验的学习

Offline Learning from Demonstrations and Unlabeled Experience

Konrad Zolna, Alexander Novikov, Ksenia Konyushkova, Caglar Gulcehre, Ziyu Wang...

TL;DR本研究提出了一种名为 ORIL 的方法，用于数据驱动的离线机器人学习。该方法结合了观察数据和未标记的数据以及奖励信号，通过增强学习来训练机器人，相对于传统的基于行为克隆的方法，它能更好地利用未标记的经验数据，提高训练的效果。

Abstract

behavior cloning (BC) is often practical for robot learning because it allows a policy to be trained offline without rewards, by supervised learning on expert demonstrations. However, BC does not effectively leverage what we will refer to as →

behavior cloning offline robot learning unlabeled experience oril reinforced imitation learning

发现论文，激发创造

何时应该优先选择离线强化学习而不是行为克隆？

本文研究离线强化学习在何种情况下可以胜过仅仅利用专家数据的行为克隆算法，结果表明：可以在特定的条件下，如稀疏奖励或嘈杂的数据源，现代离线学习方法可以显着地胜过行为克隆算法，尤其是在长期视野问题上，甚至比专家数据上的行为克隆算法更好。

Apr, 2022

从亚优示例中进行判别器加权的离线模仿学习

本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法，该算法额外引入了一个鉴别器来区分专家和非专家数据，并将其输出作为 behavioural cloning 的损失权重，实验结果表明该算法可以提高回报率和训练速度。

Jul, 2022

连贯的软件仿真学习

本文提出了一种混合的模仿学习方法，将行为克隆和逆向加权分别作为策略和奖励模型，结合软强化学习框架下的无限制行为克隆技术和正则化方法，以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活，具有稳定的学习和最小化的超参数调整。

May, 2023

模仿引导强化学习

利用有限的模仿数据进行自主性提升的开创性框架 —— 模仿引导强化学习（IBRL），在从像素学习的模拟中实现了 7 个具有挑战性的稀疏奖励连续控制任务的最新性能和样本效率，是 RLPD 方法的 6.4 倍成功率的新亮点。

Nov, 2023

基于模型的离线模仿学习与非专家数据

通过利用最优和次优策略收集的数据集，我们提出了一种可扩展的基于模型的离线模仿学习算法框架，其最坏子优性与专家样本相关的时间视野呈线性，实验证明在模拟连续控制领域中，该算法始终表现优于行为克隆。

Jun, 2022

从观察中进行行为复制

本研究提出了基于行为克隆的观察学习技术，旨在通过自我监督方式获取经验并观察专家的技能表现来学习任务，并在多个不同的模拟领域展示了与现有技术相当的任务表现和更高的学习速度。

May, 2018

如何在离线模仿学习中利用多样化的示范

离线仿真学习（IL）在实际领域中由于专家数据的稀缺性而受到越来越多的关注。本文介绍了一种简单而有效的数据选择方法，基于其结果状态识别积极行为，从而更好地利用动态信息并有效地提取专家行为和有益的多样行为。通过在复杂和高维离线 IL 基准测试中的实验评估，结果表明我们的方法达到了最先进的性能，在 20/21 个基准测试中超越了现有方法，通常是 2-5 倍，并且与行为克隆（BC）保持可比的运行时间。

May, 2024

离线强化学习的半监督奖励学习

通过半监督学习算法，探索在人类奖励注释最小的约束下进行奖励学习，从而在缺少奖励函数的情况下培训机器人行为，并发现奖励模型的质量与最终策略之间的关系。

Dec, 2020

行为克隆用于离线强化学习的可靠条件化

本文介绍了一种改进版的行为克隆方法，即 ConserWeightive Behavioral Cloning，该方法包含轨迹权重和保守正则化两个核心组件，通过提高高回报轨迹的权重和鼓励策略在数据分布附近保持稳定，从而提高条件行为克隆的可靠性，并在多个基准测试中得到良好表现。

Oct, 2022

SQIL: 通过稀疏奖励加强学习实现的模仿学习

提出了一种称作 “软 Q 模仿学习” 的新方法，该方法使用强化学习，但不需要学习奖励函数，而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习（GAIL）的方法，可用于标准 Q 学习或离线策略演员 - 评论家算法。

May, 2019