Aug, 2023

连续状态环境中的条件核模仿学习

TL;DR我们提出了一种基于马尔科夫平衡方程和条件核密度估计的模仿学习框架,通过估计环境的转移动力学和满足环境的概率平衡方程来解决连续状态空间环境中的模仿学习问题,并在连续状态基准环境的一系列数值实验中展示了优于许多最先进的模仿学习算法的实证表现。