May, 2024

高速公路图在强化学习中的加速

TL;DR为了提高 RL 算法的训练效率,本研究基于高速公路图的观察,提出了一种新颖的图结构,用于模拟状态转换,将 RL 训练在早期阶段显著加速,并在性能上优于其他无模型和带模型的 RL 算法。同时,基于高速公路图训练的深度神经网络代理具有更好的泛化性能和更低的存储成本。