Dec, 2018

基于元学习的深度在线学习:模型强化学习中的持续自适应

TL;DR本文旨在开发一种方法,从传入的数据流中使用深度神经网络模型进行连续的在线学习,使用随机梯度下降算法来更新模型参数,并使用先验的中餐馆过程的期望最大化算法来开发和维护一种混合模型来处理非平稳任务分布。我们将元学习应用于基于模型的强化学习,以适应预测模型关键控制任务中的连续快速自适应。