BriefGPT.xyz
Ask
alpha
关键词
policy gradient algorithms
搜索结果 - 22
NIPS
通过随机值梯度学习连续控制策略
本文提出了一种使用反向传播学习连续控制策略的统一框架,并通过将贝尔曼方程中的随机性视为外源噪声的确定性函数,来支持随机控制。结果是一系列从有值函数的无模型方法到无值函数的有模型方法的通用策略梯度算法谱。我们使用学习模型,但只需要来自环境的观
→
PDF
9 years ago
ICML
基于方差相关风险标准的策略梯度
本文提出了一种新的公式来计算环节任务成本的方差,并使用该公式提出了基于局部策略梯度算法的风险管理框架,进一步研究了涉及成本期望和成本方差的准则,最终在投资组合计划问题中应用。
PDF
12 years ago
Prev
Next