KDDJul, 2022

利用风格迁移的引导状态表示,提高深度强化学习的泛化性能

TL;DR提出了 Thinker,一种自助引导方法,通过对经验轨迹进行聚类和应用样式转移生成器来提高强化学习代理的泛化能力。实验结果表明,与基准算法和多种数据增强技术相比,Thinker 在 Procgen 基准环境中具有更好的泛化能力。