Apr, 2017

策略梯度与软 Q 学习的等价性

TL;DR研究表明,$Q$-learning 方法在最初的样本效率和有效性方面能够有效地实现,但其估计的 $Q$-value 非常不准确,本文给出了一个部分解释,即 $Q$-learning 方法在秘密地实现 policy gradient 更新。