Nov, 2017

变分自适应牛顿法用于探索性学习

TL;DR本文介绍了变分自适应牛顿法 (VAN) 的方法,它是一种适用于探索性学习任务的黑盒优化方法,可以像贝叶斯方法一样估计用于探索的分布,但需要类似于连续优化方法的计算方式。我们的理论贡献揭示了 VAN 是一个二阶方法,将已有的连续优化、变分推理和进化策略方法统一起来。我们的实验结果表明,VAN 在各种学习任务中表现良好。这项工作提出了一种通用的探索性学习方法,有潜力在诸如主动学习和强化学习等领域改善学习效果。