BriefGPT.xyz
Ask
alpha
关键词
neural network function parameterization
搜索结果 - 1
改进的有限时间分析:基于深度神经网络的时差学习
本文基于非线性的动作价值逼近,对具有神经网络函数参数化的时序差异(TD)学习算法进行改进的有限时间分析,得到了一种改进的新的样本复杂度 Ο̃(ε^(-1)),在马尔可夫采样下取得了 Ο̃(ε^(-1)) 的复杂度,相比现有文献中已知的 Ο̃
→
PDF
2 months ago
Prev
Next