行为克隆用于离线强化学习的可靠条件化

Oct, 2022

行为克隆用于离线强化学习的可靠条件化

Reliable Conditioning of Behavioral Cloning for Offline Reinforcement Learning

Tung Nguyen, Qinqing Zheng, Aditya Grover

TL;DR本文介绍了一种改进版的行为克隆方法，即 ConserWeightive Behavioral Cloning，该方法包含轨迹权重和保守正则化两个核心组件，通过提高高回报轨迹的权重和鼓励策略在数据分布附近保持稳定，从而提高条件行为克隆的可靠性，并在多个基准测试中得到良好表现。

Abstract

behavioral cloning (BC) provides a straightforward solution to offline rl by mimicking offline trajectories via supervised learning. Recen

behavioral cloning offline rl supervised learning conserweightive behavioral cloning trajectory weighting

发现论文，激发创造

何时应该优先选择离线强化学习而不是行为克隆？

本文研究离线强化学习在何种情况下可以胜过仅仅利用专家数据的行为克隆算法，结果表明：可以在特定的条件下，如稀疏奖励或嘈杂的数据源，现代离线学习方法可以显着地胜过行为克隆算法，尤其是在长期视野问题上，甚至比专家数据上的行为克隆算法更好。

Apr, 2022

基于模型的离线模仿学习与非专家数据

通过利用最优和次优策略收集的数据集，我们提出了一种可扩展的基于模型的离线模仿学习算法框架，其最坏子优性与专家样本相关的时间视野呈线性，实验证明在模拟连续控制领域中，该算法始终表现优于行为克隆。

Jun, 2022

提升 TD3-BC：放松策略约束用于离线学习和稳定的在线微调

该研究探讨了如何通过 RL 和行为克隆来优化策略以在离线环境下改善性能，并且证明了通过减少 BC 的影响来在训练后调整权衡以产生经过优化的政策是可能的，并且可以用于稳定的在线微调。

Nov, 2022

离线学习：基于演示和无标签经验的学习

本研究提出了一种名为 ORIL 的方法，用于数据驱动的离线机器人学习。该方法结合了观察数据和未标记的数据以及奖励信号，通过增强学习来训练机器人，相对于传统的基于行为克隆的方法，它能更好地利用未标记的经验数据，提高训练的效果。

Nov, 2020

连贯的软件仿真学习

本文提出了一种混合的模仿学习方法，将行为克隆和逆向加权分别作为策略和奖励模型，结合软强化学习框架下的无限制行为克隆技术和正则化方法，以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活，具有稳定的学习和最小化的超参数调整。

May, 2023

ADR-BC: 敌对密度加权回归行为克隆

提出 ADR-BC，通过增强密度支持的行为克隆方法，优化策略并避免多步强化学习中的累积偏差，实验证明其在多个任务上均明显优于目前 state-of-the-art 的泛化 IL 基准 CEIL，并且在 Adroit 和 Kitchen 领域中使用真实奖励时比 Implicit Q Learning (IQL) 有 89.5% 的改进。

May, 2024

ABC: 离线模式寻求模仿学习的对抗行为克隆

本文介绍了行为克隆（BC）的关键缺陷，由于 BC 是以最大似然为目标函数，因此在以高斯函数表示学习代理的策略时，BC 对状态条件专家动作分布求取均值导致了问题。为了解决这个问题，我们引入了 ABC 方法，它包含 GAN 训练的元素，具有寻找众数的性质，并在玩具领域和 DeepMind 控制套件上的 Hopper 域上进行评估，并表明它胜过标准的 BC。

Nov, 2022

从观察中进行行为复制

本研究提出了基于行为克隆的观察学习技术，旨在通过自我监督方式获取经验并观察专家的技能表现来学习任务，并在多个不同的模拟领域展示了与现有技术相当的任务表现和更高的学习速度。

May, 2018

离线强化学习的置信度条件值函数

本文提出了一种新的学习价值函数的方法，即置信度条件价值函数。该方法能够在训练时对不同的保守程度进行学习，并在评估时动态地选择其中一种，以控制置信度水平。该方法可通过将现有算法的 Q 函数置信度化来实现，并能在任何期望的置信度下产生真实值的保守估计。实验结果表明该方法在多个离散控制领域中的性能优于现有的保守离线强化学习算法。

Dec, 2022

策略性保守型 Q 学习

提出了一种名为 Strategically Conservative Q-Learning (SCQ) 的新框架，用于解决离线强化学习中的逼近误差和分布外动作的问题，在 D4RL 基准任务上表现优于现有方法。

Jun, 2024