通过离策略分布匹配实现的模仿学习

Dec, 2019

通过离策略分布匹配实现的模仿学习

Imitation Learning via Off-Policy Distribution Matching

Ilya Kostrikov, Ofir Nachum, Jonathan Tompson

TL;DR本研究提出一种名为 ValueDICE 的基于离线数据的策略优化算法，它使用分布匹配方法来提高数据利用效率并优化如何评估专家演示数据的不同媒介投放，实现了在模拟学习测试上的最佳性能。

Abstract

When performing imitation learning from expert demonstrations, distribution matching is a popular approach, in which one alternates between estimating distribution ratios and then using these ratios as rewards in a standard →

imitation learning distribution matching reinforcement learning data efficiency valuedice

发现论文，激发创造

通过松弛分布匹配实现离线次优演示的模仿学习

本文提出了一种针对少量优秀数据和大量劣质数据的离线模仿学习问题的解决方案，并且采用了一种松弛的 f - 分布来对策略的支持进行规范化，结果表明在六个标准连续控制环境中，相较于最优先的离线模仿学习方法，本文提出的 RelaxDICE 平均性能提升了 30％以上。

Mar, 2023

软 DICE 用于模仿学习：重思离线策略分布匹配

SoftDICE 是一种采用熵正则化的离线算法，用于解决样本有效的模仿学习中的分布匹配问题，其表现取得了 Mujoco 基准任务上的最佳结果。

Jun, 2021

随机专家蒸馏：通过专家策略支持来进行模仿学习估计

本文提出一种新的模仿学习框架，通过估计专家策略的支持来计算固定的奖励函数，将模仿学习重新定位到标准的强化学习设置中，证明了该奖励函数在离散和连续域上的有效性，并在不同的强化学习算法下实现了与现有技术相当或更好的表现。

May, 2019

通过矩匹配实现分布式强化学习

本文提出了一种无限制统计学习方法，利用神经网络和最大均值偏差技术来匹配收益分布和 Bellman 目标，适用于分布式 RL 并在 Atari 游戏中获得了优异表现。

Jul, 2020

DM$^2$: 分布匹配的去中心化多智能体强化学习

本研究讨论无集中式组分和显式通讯的分布式多智能体学习，研究表明分布式匹配技术可用于协调独立智能体之间的协作，开发了一种实用的基于样本轨迹的算法（DM^2），已在 StarCraft 领域验证。

Jun, 2022

一种基于排名的模仿学习游戏

本文提出了一种将模仿学习看作是一种基于排名的二人游戏的新框架，并使用一种新型排名误差来实例化该框架，从而同时学习专家演示和偏好，实现了两种模态的优势，并在 Learning from Observation (LfO) 环境中实现了先进的样本效率和可扩展性。

Feb, 2022

多目标策略优化的分布式视角

本文提出了一种用于多目标强化学习的新算法，可以以一种无量纲的方式设置目标的偏好，并且通过学习行动分布和拟合参数策略来在高维实际机器人任务及模拟任务中展示了其有效性，从而找到一组非支配解空间。

May, 2020

基于观测的离策略模仿学习

本文提出了一个基于观察学习的学习方法，包括分布匹配、离线策略学习和倒置动作模型，能够在性能和样本效率上与最先进的方法相媲美。

Feb, 2021

强化学习中的模仿学习

针对确定性专家，本文使用固定奖励将模仿学习降为强化学习问题，并证实了可以恢复专家的奖励，并将模仿者与专家之间的总变化距离等同于对抗模仿学习，针对连续控制任务进行了实验确认降维的有效性。

Aug, 2021

基于能量分布匹配的严格批量模仿学习

该论文提出了一种通过进行基于演示行为的学习，以在完全离线的模式下执行严格批量模仿学习。

Jun, 2020