Jun, 2019

使用对数映射在强化学习中实现较低的折扣因子

TL;DR通过一系列的实验,揭示了常见的低折扣系数的表现差距不是由于过小的动作差异引起的,提出了一个新的假设,认为状态空间中动作差异的大小差异才是主要原因。然后引入了一种新的方法,通过将值估计映射到对数空间来实现更加均匀的动作差异。在标准假设下证明了该方法的收敛性,并证明了这确实使得近似强化学习方法可降低折扣系数,从而解决了传统方法难以解决的一类强化学习问题。