ICLRMay, 2017

自适应基于想象优化的元控制

TL;DR通过引入元控制器,学习在预测世界的内部模拟过程中优化序列,以构建更具见识性和更经济的解决方案,并学习如何选择要参考的专家,从而比传统的固定策略方法实现更低的总成本。