Oct, 2022

深度强化学习中线性区域发展的理解

TL;DR本文旨在通过对连续控制任务和策略网络维度的实证结果,以及基于监督学习环境中的神经网络感知区域结果的最新理论和实证结果的探究,来了解强化学习的深度策略中区域计数及其密度的演化,结果表明深度强化学习策略的复杂性并不是由于在策略的轨迹上及周围观察到的函数的复杂度的显著增长而产生的,区域密度仅在训练过程中适度增加,而轨迹本身在训练过程中也会增加其长度,并且从当前轨迹的角度来看,区域密度会随之减小。