关键词coherent risk measures
搜索结果 - 4
- 证明收敛性的风险敏感分布式强化学习的策略梯度方法
该研究论文介绍了一种用于风险敏感分布式强化学习的策略梯度方法,以及一种基于分布式策略评估和轨迹梯度估计的分类分布式策略梯度算法(CDPG)。通过在随机悬崖环境上进行实验,展示了在分布式强化学习中考虑风险敏感性的益处。
- 非凸风险约束学习中的强对偶关系
我们建立了对于功能性的两步组合风险受限学习问题的强对偶关系,涵盖多个非凸损失函数和 / 或学习约束的情况,不受非凸性和最小技术假设的限制。我们的结果特别意味着在所研究的问题类中存在零对偶间隙,扩展和改进了(风险中性)受限学习的最新进展。
- AAAI约束风险厌恶马尔可夫决策过程
该研究旨在设计面向具有动态一致风险目标和约束的马尔可夫决策过程的策略。作者提出了一个基于优化的方法来综合最小化受约束的风险 - 厌恶问题的可行马尔可夫策略,并通过数值实验验证了该方法的有效性。
- 一致风险度量的政策梯度
该研究拓展了风险敏感的强化学习算法的范围,利用凸优化和演员 - 评论家(actor-critic)模型处理动态风险测量,提出了一种统一的方法来应对风险敏感的策略梯度方法。