基于模型的离线模仿学习与非专家数据

Jun, 2022

基于模型的离线模仿学习与非专家数据

Model-based Offline Imitation Learning with Non-expert Data

Jeongwon Park, Lin Yang

TL;DR通过利用最优和次优策略收集的数据集，我们提出了一种可扩展的基于模型的离线模仿学习算法框架，其最坏子优性与专家样本相关的时间视野呈线性，实验证明在模拟连续控制领域中，该算法始终表现优于行为克隆。

Abstract

Although behavioral cloning (BC) in theory suffers compounding errors, its scalability and simplicity still makes it an attractive imitation learning algorithm. In contrast, imitation approaches with

behavioral cloning imitation learning adversarial training offline learning continuous control

发现论文，激发创造

何时应该优先选择离线强化学习而不是行为克隆？

本文研究离线强化学习在何种情况下可以胜过仅仅利用专家数据的行为克隆算法，结果表明：可以在特定的条件下，如稀疏奖励或嘈杂的数据源，现代离线学习方法可以显着地胜过行为克隆算法，尤其是在长期视野问题上，甚至比专家数据上的行为克隆算法更好。

Apr, 2022

从亚优示例中进行判别器加权的离线模仿学习

本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法，该算法额外引入了一个鉴别器来区分专家和非专家数据，并将其输出作为 behavioural cloning 的损失权重，实验结果表明该算法可以提高回报率和训练速度。

Jul, 2022

ABC: 离线模式寻求模仿学习的对抗行为克隆

本文介绍了行为克隆（BC）的关键缺陷，由于 BC 是以最大似然为目标函数，因此在以高斯函数表示学习代理的策略时，BC 对状态条件专家动作分布求取均值导致了问题。为了解决这个问题，我们引入了 ABC 方法，它包含 GAN 训练的元素，具有寻找众数的性质，并在玩具领域和 DeepMind 控制套件上的 Hopper 域上进行评估，并表明它胜过标准的 BC。

Nov, 2022

离线强化学习和模仿学习的联系：一则悲观的故事

提出了一种新的离线强化学习框架，将模仿学习和通用离线强化学习相结合，中心思想是测量从行为策略到专家策略的偏差，进一步研究了针对未知数据分布下的算法设计问题，提出了一种基于悲观策略的下限置信度算法 LCB，在多臂赌博机、情境赌博机和马尔可夫决策过程中进行了有限样本性能研究，结果揭示了一些有关最优性率的令人惊讶的事实。

Mar, 2021

扩散模型增强的行为克隆

本文提出了一种结合了扩散模型和行为克隆的方法来提高模仿学习的性能，此方法在各种连续控制任务上的性能优于基准方法或者达到了相当竞争的水平。

Feb, 2023

离线学习：基于演示和无标签经验的学习

本研究提出了一种名为 ORIL 的方法，用于数据驱动的离线机器人学习。该方法结合了观察数据和未标记的数据以及奖励信号，通过增强学习来训练机器人，相对于传统的基于行为克隆的方法，它能更好地利用未标记的经验数据，提高训练的效果。

Nov, 2020

行为克隆用于离线强化学习的可靠条件化

本文介绍了一种改进版的行为克隆方法，即 ConserWeightive Behavioral Cloning，该方法包含轨迹权重和保守正则化两个核心组件，通过提高高回报轨迹的权重和鼓励策略在数据分布附近保持稳定，从而提高条件行为克隆的可靠性，并在多个基准测试中得到良好表现。

Oct, 2022

连贯的软件仿真学习

本文提出了一种混合的模仿学习方法，将行为克隆和逆向加权分别作为策略和奖励模型，结合软强化学习框架下的无限制行为克隆技术和正则化方法，以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活，具有稳定的学习和最小化的超参数调整。

May, 2023

如何在离线模仿学习中利用多样化的示范

离线仿真学习（IL）在实际领域中由于专家数据的稀缺性而受到越来越多的关注。本文介绍了一种简单而有效的数据选择方法，基于其结果状态识别积极行为，从而更好地利用动态信息并有效地提取专家行为和有益的多样行为。通过在复杂和高维离线 IL 基准测试中的实验评估，结果表明我们的方法达到了最先进的性能，在 20/21 个基准测试中超越了现有方法，通常是 2-5 倍，并且与行为克隆（BC）保持可比的运行时间。

May, 2024

提升 TD3-BC：放松策略约束用于离线学习和稳定的在线微调

该研究探讨了如何通过 RL 和行为克隆来优化策略以在离线环境下改善性能，并且证明了通过减少 BC 的影响来在训练后调整权衡以产生经过优化的政策是可能的，并且可以用于稳定的在线微调。

Nov, 2022