Oct, 2020

具有鲁棒性交叉熵方法的约束模型强化学习

TL;DR本文研究对于稀疏指示信号的约束 / 安全强化学习问题。我们提出了一种基于模型的方法,使强化学习代理能够在未知系统动力学和环境约束下有效地探索环境。我们使用神经网络集成模型来估计预测不确定性,并以模型预测控制作为基本控制框架。我们提出了鲁棒的交叉熵方法来优化控制序列,考虑模型不确定性和约束。我们在安全体育场环境中评估了我们的方法。结果表明,我们的方法比现有基线模型学习完成任务的约束违规数量更少。此外,与有约束模型无关的强化学习方法相比,我们能够实现几个数量级更好的样本效率。代码可在 https://github.com/liuzuxin/safe-mbrl 获取。