Jul, 2024

通过Lambda差异减轻顺序决策过程中的局部可观测性

TL;DR强化学习算法通常依赖于环境动态和价值函数可以用马尔可夫状态表示的假设。然而,当状态信息只能部分观察到时,代理如何学习这样一种状态表示,以及如何检测是否找到了这样一个表示?我们引入了一种度量标准,可以同时完成这两个目标,而无需访问或了解底层的不可观测状态空间。我们的度量标准,即λ-偏差,是两个不同时间差分(TD)值估计的差异,每个估计都使用了具有不同λ值的TD(λ)进行计算。由于TD(λ=0)做出了隐含的马尔可夫假设而TD(λ=1)则不做,这些估计之间的差异是非马尔可夫状态表示的潜在指标。事实上,我们证明了对于所有马尔可夫决策过程,λ-偏差恰好为零,对于一类广泛的部分可观测环境,λ-偏差几乎总是非零的。我们还通过经验证明,一旦检测到,最小化λ-偏差有助于学习内存函数以减轻相应的部分可观测性。然后,我们训练一个强化学习代理,同时构建两个具有不同λ参数的递归值网络,并将它们之间的差异最小化为辅助损失。该方法可适用于具有挑战性的部分可观测领域,结果表明,所得代理的性能通常显著优于仅具有单个值网络的基线递归代理(并且从不更差)。