Jun, 2023

线性函数逼近SARSA算法的收敛性:随机时限情况

TL;DR本研究探究了强化学习算法SARSA与线性函数逼近的收敛性问题,将算法应用于随机时长的马尔可夫决策问题中,证明了当行为策略为ε-soft且与线性函数逼近的权重向量Lipschitz连续时,该算法随机收敛的概率为1。