Feb, 2020

通用价值密度估计 —— 对模仿学习和目标条件强化学习的应用

TL;DR该研究考虑了两种不同的学习方式:模仿学习和目标条件强化学习。该研究介绍了一种基于概率长期动态和期望价值函数之间联系的方法,并利用密度估计的最新进展来有效学习达到指定状态的能力。该方法不仅在目标条件强化学习方面表现高效且不会出现事后偏差问题,在模仿学习方面也达到了标准基准任务的最新样本效率。