Jan, 2022

通过贝叶斯世界模型实现受限策略优化

TL;DRLAMBDA 是一种基于模型的新型策略优化方法,利用贝叶斯世界模型提高强化学习的样本效率和安全性,在 Safety-Gym 基准测试中表现优异。