基于模型的离线模仿学习与非专家数据
本文研究离线强化学习在何种情况下可以胜过仅仅利用专家数据的行为克隆算法,结果表明:可以在特定的条件下,如稀疏奖励或嘈杂的数据源,现代离线学习方法可以显着地胜过行为克隆算法,尤其是在长期视野问题上,甚至比专家数据上的行为克隆算法更好。
Apr, 2022
本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法,该算法额外引入了一个鉴别器来区分专家和非专家数据,并将其输出作为 behavioural cloning 的损失权重,实验结果表明该算法可以提高回报率和训练速度。
Jul, 2022
本文介绍了行为克隆(BC)的关键缺陷,由于 BC 是以最大似然为目标函数,因此在以高斯函数表示学习代理的策略时,BC 对状态条件专家动作分布求取均值导致了问题。 为了解决这个问题,我们引入了 ABC 方法,它包含 GAN 训练的元素,具有寻找众数的性质,并在玩具领域和 DeepMind 控制套件上的 Hopper 域上进行评估,并表明它胜过标准的 BC。
Nov, 2022
提出了一种新的离线强化学习框架,将模仿学习和通用离线强化学习相结合,中心思想是测量从行为策略到专家策略的偏差,进一步研究了针对未知数据分布下的算法设计问题,提出了一种基于悲观策略的下限置信度算法 LCB,在多臂赌博机、情境赌博机和马尔可夫决策过程中进行了有限样本性能研究,结果揭示了一些有关最优性率的令人惊讶的事实。
Mar, 2021
本研究提出了一种名为 ORIL 的方法,用于数据驱动的离线机器人学习。该方法结合了观察数据和未标记的数据以及奖励信号,通过增强学习来训练机器人,相对于传统的基于行为克隆的方法,它能更好地利用未标记的经验数据,提高训练的效果。
Nov, 2020
本文介绍了一种改进版的行为克隆方法,即 ConserWeightive Behavioral Cloning,该方法包含轨迹权重和保守正则化两个核心组件,通过提高高回报轨迹的权重和鼓励策略在数据分布附近保持稳定,从而提高条件行为克隆的可靠性,并在多个基准测试中得到良好表现。
Oct, 2022
本文提出了一种混合的模仿学习方法,将行为克隆和逆向加权分别作为策略和奖励模型,结合软强化学习框架下的无限制行为克隆技术和正则化方法,以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活,具有稳定的学习和最小化的超参数调整。
May, 2023
离线仿真学习(IL)在实际领域中由于专家数据的稀缺性而受到越来越多的关注。本文介绍了一种简单而有效的数据选择方法,基于其结果状态识别积极行为,从而更好地利用动态信息并有效地提取专家行为和有益的多样行为。通过在复杂和高维离线 IL 基准测试中的实验评估,结果表明我们的方法达到了最先进的性能,在 20/21 个基准测试中超越了现有方法,通常是 2-5 倍,并且与行为克隆(BC)保持可比的运行时间。
May, 2024
该研究探讨了如何通过 RL 和行为克隆来优化策略以在离线环境下改善性能,并且证明了通过减少 BC 的影响来在训练后调整权衡以产生经过优化的政策是可能的,并且可以用于稳定的在线微调。
Nov, 2022