ICMLDec, 2018

再探 Softmax Bellman Operator: 新的益处与新的视角

TL;DR本文研究了在强化学习领域中,softmax 对值函数本身的影响,表明其虽然与 Bellman operator 的收敛性质有冲突,但在值函数近似的情况下,结合深度 Q 学习可以产生更出色的 Q-function 性能,并可减少 overestimation error。