ICMLDec, 2018
再探 Softmax Bellman Operator: 新的益处与新的视角
Revisiting the Softmax Bellman Operator: New Benefits and New Perspective
Zhao Song, Ronald E. Parr, Lawrence Carin
TL;DR本文研究了在强化学习领域中,softmax 对值函数本身的影响,表明其虽然与 Bellman operator 的收敛性质有冲突,但在值函数近似的情况下,结合深度 Q 学习可以产生更出色的 Q-function 性能,并可减少 overestimation error。