Sep, 2022

延迟几何折扣:强化学习的另一种准则

TL;DR通过推广折扣问题的公式,使用延迟目标函数家族解决通过强化学习问题中存在的样本低效和探索问题,并用所设计的算法成功地解决了硬的探索问题和改善了经典模拟机器人基准测试的样本效率。