BriefGPT.xyz
大模型
Ask
alpha
关键词
gradient-based reinforcement learning
搜索结果 - 1
进化策略梯度
该研究提出了一种元学习方法,用于学习基于梯度的加强学习算法,即演化可微损失函数,以便代理可以最小化该损失来优化其策略并获得高回报。经实证结果表明,与现成的策略梯度方法相比,所提出的演化策略梯度算法(EPG)在几个随机环境上实现了更快的学习,
→
PDF
6 years ago
Prev
Next