Nov, 2013

风险敏感的强化学习

TL;DR该研究提出了一种风险敏感的强化学习框架,将效用函数应用于时间差分误差,实现非线性转换,将其应用于马尔可夫决策过程的转移概率和获得的奖励,并将其用于解释人类决策行为的特征,通过证明该模型的收敛性和在一个顺序投资任务中的实际应用,进一步验证了风险敏感强化学习框架的有效性。