本文提出了一种新的适用于多智能体环境的 Multi-Agent 模仿学习框架,它建立在广义反向强化学习的基础上,并引入了实用的多智能体演员 - 评论家算法。该方法可用于多个合作或竞争代理的高维环境中模仿复杂的行为。
Jul, 2018
本文提出一种新的模仿学习框架,通过估计专家策略的支持来计算固定的奖励函数,将模仿学习重新定位到标准的强化学习设置中,证明了该奖励函数在离散和连续域上的有效性,并在不同的强化学习算法下实现了与现有技术相当或更好的表现。
May, 2019
通过生成敌对网络框架,提出一种以权力为基础的正则化最大熵逆向强化学习来学习接近最优的奖励和策略,同时学习变分信息最大化下的权力,并在各种高维复杂控制任务和具有挑战性的转移学习问题上进行了评估,证明了该方法不仅匹配专家行为而且比最先进的逆向强化学习算法表现显著优异。
Sep, 2018
本文提出了用于从机器人的多次策略中恢复策略目标的新算法。该算法基于观察所观察到的代理程序沿梯度方向更新其策略参数的假设。
Jul, 2020
我们提出使用混合增强学习的方法来减少反向强化学习中不必要的探索,通过专家数据在训练过程中引导学习者,从而缩小小型逆强化学习问题的交互过程,取得了较好的策略表现。
Feb, 2024
本文介绍应用生成对抗性模仿学习方法,通过有限的高维仿人体运动演示数据,训练神经网络策略以产生类人的运动模式,并利用该方法构建子技能策略解决高维身体姿态控制任务。
Jul, 2017
本文提出了一种基于对抗生成模型的模仿学习算法,能够通过无监督学习方法推断出专家示范中隐藏的潜在结构,并可以学习到复杂行为数据可解释且有意义的表示方式,包括图像示范。在驾驶领域中,我们展示了通过人类示范学习的模型能够准确地复现多种行为并能使用原始视觉输入准确地预测人类的行为。相比于其他基线算法,我们的方法能更好地捕捉隐藏在专家示范中的潜在结构,并经常回收到语义上有意义的数据变量。
Mar, 2017
通过采用敌对模仿学习和敌对逆强化学习的方法,提出了一种新的对话生成奖励模型,可用于更精确地指导生成器训练,实验结果表明其有效性。
Dec, 2018
本文介绍了一种在模型 free 的前提下能够提高采样效率的演员评论家结构,利用了 GAIL 中对抗训练的方法和离策略演员评论家的优势,在多个连续控制任务中,我们证明了这种方法的简洁易行和稳定性。
通过使用聚合数据上的对抗性模仿学习,我们提出了一种名为 Adversarial Imitation Learning on Aggregated Data (AILAD) 的动态自适应方法,可以同时学习非线性奖励函数和相关的最优策略,并且生成多样化的行为来匹配专家数据的分布。
Nov, 2023