Sep, 2024

异步随机逼近与平均奖励强化学习

TL;DR本文研究了异步随机逼近算法及其在半马克ov决策过程中的应用,重点在于平均奖励标准。通过扩展Borkar和Meyn的稳定性证明方法,我们为异步SA算法提供了更广泛的收敛保证,并发展了RVI Q学习算法的收敛性,这将扩展目前的算法框架,对强化学习领域产生重要影响。