May, 2020

两时间尺度(自然)Actor-Critic 算法的非渐进收敛分析

TL;DR本文提出了第一种具有非渐近收敛率的二次时间尺度演员 - 评论家和自然演员 - 评论家算法的样本复杂度,通过使用新技术对动态变化 Markovian 采样的 actor 偏差误差进行边界估计并分析带有动态变化基函数和转换内核的线性评论家的收敛速率。