BriefGPT.xyz
Ask
alpha
关键词
`deadly triad
搜索结果 - 1
线性函数逼近的离策多步 TD 学习分析
本文分析了在线性函数逼近、离策略学习和自举的 “致命三角” 场景中的多步 TD 学习算法,并证明了当采样周期 n 足够大时,n 步 TD 学习算法收敛到一个解。基于这些发现,提出并分析了两种 n 步 TD 学习算法,这些算法可以视为梯度和控
→
PDF
4 months ago
Prev
Next