Nov, 2013
风险敏感的强化学习
Risk-sensitive Reinforcement Learning
Yun Shen, Michael J. Tobia, Tobias Sommer, Klaus Obermayer
TL;DR该研究提出了一种风险敏感的强化学习框架,将效用函数应用于时间差分误差,实现非线性转换,将其应用于马尔可夫决策过程的转移概率和获得的奖励,并将其用于解释人类决策行为的特征,通过证明该模型的收敛性和在一个顺序投资任务中的实际应用,进一步验证了风险敏感强化学习框架的有效性。