Mar, 2017

反向风险敏感的强化学习

TL;DR本研究提出了一种基于人类决策模型的梯度下降型反向强化学习算法,用于解决马尔可夫决策过程中有风险感知的智能体反向强化学习问题,并结合两个案例进行了性能展示。