May, 2022

数据有效的强化学习并发信用分配

TL;DR本文提出了一种基于占据模型的强化学习算法,通过更新占据模型可实现环境状态的均匀采样,从而在经典的连续行动基准问题上提高了采样效率。