Jul, 2018

具有遗憾界限的变分贝叶斯强化学习

TL;DR本文中,我们利用一种新的 Bellman 算子和相应的固定点,称为‘知识价值’,将期望未来回报和认知不确定性压缩成一个单一的值,从而实现了一种风险追求效用函数,并通过 Boltzmann 策略生成贝叶斯风险边界。