Jun, 2019

认知风险敏感强化学习

TL;DR本文介绍了一种基于偏爱函数的风险感知的增强学习框架,在不确定的环境下可以通过调节风险偏好参数实现风险规避,风险中性或风险承受。同时,作者使用动态规划和策略梯度算法来衡量和控制认知风险,并将风险规避策略与认知风险环境下的最优风险中性策略进行了比较分析。