通过离策略分布匹配实现的模仿学习
本文提出了一种针对少量优秀数据和大量劣质数据的离线模仿学习问题的解决方案,并且采用了一种松弛的 f - 分布来对策略的支持进行规范化,结果表明在六个标准连续控制环境中,相较于最优先的离线模仿学习方法,本文提出的 RelaxDICE 平均性能提升了 30%以上。
Mar, 2023
SoftDICE 是一种采用熵正则化的离线算法,用于解决样本有效的模仿学习中的分布匹配问题,其表现取得了 Mujoco 基准任务上的最佳结果。
Jun, 2021
本文提出一种新的模仿学习框架,通过估计专家策略的支持来计算固定的奖励函数,将模仿学习重新定位到标准的强化学习设置中,证明了该奖励函数在离散和连续域上的有效性,并在不同的强化学习算法下实现了与现有技术相当或更好的表现。
May, 2019
本文提出了一种无限制统计学习方法,利用神经网络和最大均值偏差技术来匹配收益分布和 Bellman 目标,适用于分布式 RL 并在 Atari 游戏中获得了优异表现。
Jul, 2020
本研究讨论无集中式组分和显式通讯的分布式多智能体学习,研究表明分布式匹配技术可用于协调独立智能体之间的协作,开发了一种实用的基于样本轨迹的算法(DM^2),已在 StarCraft 领域验证。
Jun, 2022
本文提出了一种将模仿学习看作是一种基于排名的二人游戏的新框架,并使用一种新型排名误差来实例化该框架,从而同时学习专家演示和偏好,实现了两种模态的优势,并在 Learning from Observation (LfO) 环境中实现了先进的样本效率和可扩展性。
Feb, 2022
本文提出了一种用于多目标强化学习的新算法,可以以一种无量纲的方式设置目标的偏好,并且通过学习行动分布和拟合参数策略来在高维实际机器人任务及模拟任务中展示了其有效性,从而找到一组非支配解空间。
May, 2020
针对确定性专家,本文使用固定奖励将模仿学习降为强化学习问题,并证实了可以恢复专家的奖励,并将模仿者与专家之间的总变化距离等同于对抗模仿学习,针对连续控制任务进行了实验确认降维的有效性。
Aug, 2021