BriefGPT.xyz
Ask
alpha
关键词
experience trajectories
搜索结果 - 1
KDD
利用风格迁移的引导状态表示,提高深度强化学习的泛化性能
提出了 Thinker,一种自助引导方法,通过对经验轨迹进行聚类和应用样式转移生成器来提高强化学习代理的泛化能力。实验结果表明,与基准算法和多种数据增强技术相比,Thinker 在 Procgen 基准环境中具有更好的泛化能力。
PDF
2 years ago
Prev
Next