关键词conditional value at risk (cvar)
搜索结果 - 2
- 非平稳分布下的风险规避学习
本文研究在线优化中的非稳态环境,以便决策者能够适应变化并提高性能。我们采用最小化风险敏感目标函数的策略,使用条件风险价值 (CVaR) 作为风险度量,并使用零阶优化方法来估计 CVaR 梯度。理论结果表明,我们设计的学习算法在凸和强凸函数上 - 低秩马尔可夫决策过程中可证明高效的 CVaR 强化学习
我们研究了风险敏感的强化学习 (RL),其中我们的目标是通过固定风险容忍度 τ 来最大化条件风险价值 (CVaR)。我们在大规模状态空间中使用 CVaR RL 来拓展推广 CVaR RL,功能逼近必须得到部署。在非线性功能逼近中,我们研究了