Jun, 2020

基于元模型的元策略优化

TL;DR本文通过将 Janner 等人 (2019) 提出的定理扩展,分析了基于模型的元强化学习方法的性能保证,并提出了具有性能保证的 Meta-Model-Based Meta-Policy Optimization (M3PO),证明 M3PO 在连续控制基准测试中优于现有的元强化学习方法。