Feb, 2023

任意经验的模仿:强化学习和模仿学习方法的双重统一

TL;DR该研究论文旨在通过对强化学习,凸优化和无偏学习方法进行研究,提出了一种新方法,即对偶 RL 方法,可以用于从离线偏置数据中进行无偏学习。