Jun, 2020
风险敏感的强化学习:在遗憾中实现近乎最优的风险-样本平衡
Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff
in Regret
TL;DR本文研究了未知转移核情况下的风险敏感强化学习问题,提出了两种模型无关的算法,Risk-Sensitive Value Iteration (RSVI) 和 Risk-Sensitive Q-learning (RSQ),证明了它们的近似最优性,并在样本效率和风险敏感之间达成了权衡(利用类指数效用量化了这种权衡),对风险敏感的强化学习做了第一次回报分析,证明该算法的准最优性。