Apr, 2022

基于模型的元学习批判家对策略梯度的优化

TL;DR针对强化学习中仍存在的新场景快速泛化的问题,该研究提出了一个元学习算法,通过对反梯度策略学习的评论家进行元学习来优化学习任务通用的代理。结果表明,该算法可以学习到接近真实 Q 值函数的评论家,使学到的评论家能够适应于新的任务和环境,并能用于学习新策略。