Nov, 2023

风险敏感马尔可夫决策过程与普遍效用函数下的学习

TL;DR在实践中,决策者经常面临着不同的风险偏好和不确定性的情况,传统的风险中性强化学习框架无法很好地捕捉到这些情况。本文提出了一种利用泛化的效用函数来解决风险敏感的强化学习问题的方法,并设计了可实现的近似算法来求解该问题。