BriefGPT.xyz
Ask
alpha
关键词
action-dependent baseline
搜索结果 - 1
ICLR
针对行动相关分解基线的策略梯度方差缩减
本研究提出了一种无偏差的基于动作的基线方法,该方法可以减少深度增强学习中梯度估计的高方差问题,最终实现高维控制问题的策略梯度算法。此外,还证明了该方法的有效性并扩展到部分观察和多智能体任务。
PDF
6 years ago
Prev
Next