Jun, 2020

基于模型的离线优化的部署高效强化学习

TL;DR本文提出了一个新概念 —— 部署效率,以衡量一个策略学习过程中使用的不同数据收集策略的数量,指出递归地使用现有的无模型离线强化学习算法不能实现实用的部署效率和样本效率,因此提出了一种名为 BREMEN 的新型基于模型的算法,在仅使用 10-20 倍于以前工作的数据的情况下,能够有效地离线优化策略,实现出色的部署效率和样本效率的学习,并使用仅 5-10 次部署即可在模拟的机器人环境中从头开始成功地学习策略,而标准强化学习基线的典型值是数百万次。