May, 2016
贝叶斯神经网络中的随机动力系统学习与策略搜索
Learning and Policy Search in Stochastic Dynamical Systems with Bayesian Neural Networks
Stefan Depeweg, José Miguel Hernández-Lobato, Finale Doshi-Velez, Steffen Udluft
TL;DR本研究提出了一种基于模型的强化学习算法,它将贝叶斯神经网络与随机展开和随机优化策略相结合,并通过最小化 α- 散度来训练 BNNs 以捕获转换动态中复杂的统计模式,解决了传统方法容易失误的多模态和异方差问题,并在控制燃气轮机的真实场景中获得了有希望的结果。