ICMLJun, 2022

用综合专业学习提高政策优化

TL;DR本文提出了一种新的强化学习通用 - 专业训练框架,通过辅助奖励和权重克隆的方式,将先前的训练经历分为 “通用训练” 和 “专业训练”,以在不同环境下实现最佳政策学习。