May, 2025

基于凸评分函数的风险敏感强化学习

TL;DR本文解决了风险目标下强化学习的问题,采用了一类广泛的凸评分函数,该方法涵盖了多种常见风险衡量标准。通过引入辅助变量和增强状态空间,提出了一种定制的演员-评论家算法,为不需要连续马尔可夫决策过程的理论贡献奠定基础,实验证明该算法在统计套利交易中的有效性。