Nov, 2021

指数贝尔曼方程与强化学习风险敏感性的改进遗憾界

TL;DR本研究旨在探究基于熵风险度量的风险敏感强化学习,通过开发一种新的风险敏感反馈机制,使得监督过程能够更有效地引导智能体策略的改进,进而提升其性能表现。