BriefGPT.xyz
Ask
alpha
关键词
compatible function approximation
搜索结果 - 2
ICML
单回路(自然) Actor-Critic 与兼容的函数逼近的非渐近分析
该研究提供了 Actor-Critic(AC)算法和 Natural Actor-Critic(NAC)算法的最紧密的非渐近收敛界限,并使用兼容函数逼近进行收敛性分析。
PDF
a month ago
连续深度策略的强化学习兼容性价值梯度
本研究提出一种新的深度强化学习算法 ——GProp,可用于连续动作策略的训练,算法基于在值函数的梯度上学习的时差法,并提出了包含三个神经网络的漂移器 — 演员 — 评论家(DAC)模型,分别估计值函数、梯度和确定演员策略。GProp 在两个
→
PDF
9 years ago
Prev
Next