BriefGPT.xyz
May, 2022
基于归一化流的观测式模仿学习(IL-flOw)
IL-flOw: Imitation Learning from Observation using Normalizing Flows
HTML
PDF
Wei-Di Chang, Juan Camilo Gamboa Higuera, Scott Fujimoto, David Meger, Gregory Dudek
TL;DR
本论文介绍了一种基于状态观测的逆强化学习算法IL-flOw,其将奖励建模与策略学习解耦,并利用深度密度估计方法生成奖励信号,避免了对抗训练方法的不稳定性问题。通过使用状态转移概率密度作为正向强化学习的奖励信号,实验结果展示了在大规模机器人控制任务上的优秀表现。
Abstract
We present an algorithm for
inverse reinforcement learning
(IRL) from expert state observations only. Our approach decouples
reward modelling
from
→