NIPSJun, 2016

Bellman 残差是否为不良代理?

TL;DR该研究旨在理论上和实证上比较强化学习的两个标准最优化标准,并提出了一种最小化 Bellman 残差的新方法来代替通常的最大化平均值的方法,实验表明直接最大化平均值比 Bellman 残差更好,这表明值基强化学习中通常使用的 Bellman 残差最小化不是一个很好的策略优化代理。