Feb, 2022
基于稳态分布校正估计的离线观测学习 - LobsDICE
LobsDICE: Offline Learning from Observation via Stationary Distribution Correction Estimation
Geon-Hyeong Kim, Jongmin Lee, Youngsoo Jang, Hongseok Yang, Kee-Eung Kim
TL;DR该论文探究了在缺乏专家行为数据的情况下,通过学习观察结果来模拟专家行为的问题,并提出了一种基于离线学习的算法 LobsDICE,该算法通过优化稳定分布来实现模仿专家策略,并在一系列在线学习任务中表现出色。