Aug, 2021
强化学习中的模仿学习
Imitation Learning by Reinforcement Learning
TL;DR针对确定性专家,本文使用固定奖励将模仿学习降为强化学习问题,并证实了可以恢复专家的奖励,并将模仿者与专家之间的总变化距离等同于对抗模仿学习,针对连续控制任务进行了实验确认降维的有效性。
Abstract
imitation learning algorithms learn a policy from demonstrations of expert behavior. Somewhat counterintuitively, we show that, for deterministic experts, →
发现论文,激发创造
通过交互无悔学习实现强化学习和模仿学习
通过交互式学习和无悔在线学习的分析方法,本文扩展了现有结果,发展了利用成本信息的交互式模仿学习方法,并将该技术扩展到应对强化学习,提供了对在线近似策略迭代成功的理论支持,建议了一系列新的算法,并提供了对模仿学习和强化学习现有技术的统一视角。
Jun, 2014
无模型模仿学习与策略优化
在模仿学习中,我们使用基于样本的方法开发了一种基于策略梯度的算法,即通过学习专家的样本轨迹,找到至少与专家策略一样好的参数化随机策略;该算法可以应用于高维度环境,并保证收敛到局部最小值。
May, 2016
随机专家蒸馏: 通过专家策略支持来进行模仿学习估计
本文提出一种新的模仿学习框架,通过估计专家策略的支持来计算固定的奖励函数,将模仿学习重新定位到标准的强化学习设置中,证明了该奖励函数在离散和连续域上的有效性,并在不同的强化学习算法下实现了与现有技术相当或更好的表现。
May, 2019
通过迭代监督学习学习实现目标
本文介绍了一种强化学习算法,利用模仿学习从零开始获得目标达成策略,而不需要专家演示或价值函数,并通过该算法在多个基准任务中达到了比现有强化学习算法更好的目标达成性能和鲁棒性。
Dec, 2019
通过估计演示者的专业水平进行模仿学习
本研究通过对演示者专业技能的无监督学习,开发了一种可同时学习演示者政策和专业技能水平的联合模型,并通过过滤每种演示者的次优行为,训练出可以优于任何演示者的单一策略,并可用于估计任意状态下演示者的专业技能,在Robomimic等实际机器人控制任务以及MiniGrid和棋类等离散环境中取得了比其他方法更好的表现。
Feb, 2022
增强模仿学习策略的在线适应性
我们提出通过在线调整来弥补模仿学习中的失败,我们的方法将预训练策略的动作建议与专家记录的相关经验相结合,通过适应的行为更好地模仿专家策略,实验表明适应的智能体表现比纯模仿学习的对应体更好,特别是在基础策略灾难性失败时,适应的智能体仍然能够实现合理的性能。
Jun, 2024