Nov, 2022
非平稳风险敏感强化学习: 近似最优动态遗憾、自适应检测和分离设计
Non-stationary Risk-sensitive Reinforcement Learning: Near-optimal
Dynamic Regret, Adaptive Detection, and Separation Design
TL;DR研究使用熵风险度量在非平稳有限马尔可夫决策过程中采用风险敏感强化学习,提出了两种基于重启的算法以及自适应检测不稳定性的元算法,并证明了算法的动态后悔下界。该研究为文献中的非平稳风险敏感强化学习提供了首个非渐近理论分析。