Jun, 2020

风险敏感的强化学习:在遗憾中实现近乎最优的风险 - 样本平衡

TL;DR本文研究了未知转移核情况下的风险敏感强化学习问题,提出了两种模型无关的算法,Risk-Sensitive Value Iteration (RSVI) 和 Risk-Sensitive Q-learning (RSQ),证明了它们的近似最优性,并在样本效率和风险敏感之间达成了权衡(利用类指数效用量化了这种权衡),对风险敏感的强化学习做了第一次回报分析,证明该算法的准最优性。