NIPSJun, 2011

高斯系统的最优强化学习

TL;DR本文研究了对于强化学习中的探索与利用之间的权衡,如果所有信念都是高斯过程,那么关于最优学习的解析陈述有多大程度的可能性。给出了非线性、时变系统在连续时间和空间中的损失和动态学习的一阶近似,受到动态学中相对较弱的限制,并描述了近似有限维投影如何有助于理解这一结果。