基于变分反强化学习的对抗性模仿
利用生成对抗网络框架下的多任务环境下的赋能制约技术,从无标记的专家示例中同时学习可转移的多任务奖励函数和策略,并证明其比现有的模仿学习方法具有更好的性能和数据效率。
Jun, 2022
提出了一种提取专家行为策略的新框架,直接从数据中提取策略,将模仿学习与生成对抗网络进行比拟,提出了无模型模仿学习算法,并证明该算法在模仿大型、高维度环境中的复杂行为时相对于现有无模型模仿学习方法具有明显性能提升。
Jun, 2016
通过代表愿景达成的功能感知状态表示进行的变分互信息最大化,能够为达到愿景状态的广泛应用的多任务策略的自监督强化学习提供框架和方法,同时还提出了广义 GCRL 和 MI-Based RL 的统一方法,即 VGCRL,并结合方法的容量和光滑性分析了能力扩展,以及其与不同线性变换结构的潜在目标发现算法的比较评价指标,即 LGR。
Jun, 2021
给定一个专家示范数据集,逆向强化学习(IRL)旨在恢复一个专家所优化的奖励。本研究提出了一种无模型算法来解决熵正则化的 IRL 问题。我们采用随机梯度下降算法更新奖励,并采用随机软策略迭代算法更新策略,假设可以访问一个生成模型,我们证明了我们的算法使用 O (1/ε^2) 个马尔可夫决策过程(MDP)样本能够恢复一个 ε- 最优奖励。此外,我们证明在 O (1/ε^4) 个样本情况下,所恢复的奖励对应的最优策略与专家策略在总变差距离上接近 ε。
Mar, 2024
本文提出了一个利用神经网络的表征能力来近似复杂的非线性奖励函数以解决反向强化学习问题的一般框架,并展示了最大熵范例在 IRL 中的有效训练方法,具有与现有基准相当的性能,超过基于高度变化奖励结构的替代基准。同时,作者将基本架构扩展为包括更大的卷积以消除对预计算空间特征的依赖并运作在原始输入表示上。
Jul, 2015
该论文介绍了一种使用固定数据集的视觉演示来学习如何完成任务的方法,并提出了一种基于变分模型的对抗性模仿学习算法来处理高维空间、固定奖励等挑战,实验结果表明 V-MAIL 算法能够高效稳定地学习成功的视觉动作策略。
Jul, 2021
通过提出一种新的变分推断形式,从环境交互中直接学习良好的奖励函数,并使用新的概率贝尔曼反演运算符,发展了一种离线策略算法来解决目标导向任务,该方法消除了手工制作奖励函数的需要,并对各种机械操纵和运动任务产生了有效的目标导向行为。
Apr, 2021
使用因果不变性作为对抗训练模型的正则化原则,以缓解模型吸收专家数据中的虚假相关性,并在二维示例环境和高维机器人运动基准任务中展示了正则化公式的有效性。
Aug, 2023
本文提出一种新的模仿学习框架,通过估计专家策略的支持来计算固定的奖励函数,将模仿学习重新定位到标准的强化学习设置中,证明了该奖励函数在离散和连续域上的有效性,并在不同的强化学习算法下实现了与现有技术相当或更好的表现。
May, 2019
本文研究 Imitation Learning,结合 Optimal Transport 提出 Wasserstein Adversarial Imitation Learning 来更高效地解决 inverse reinforcement learning 中 reward function 问题。在机器人实验中,该方法只需一个 expert demonstration 即可实现显著提升。
Jun, 2019