Mar, 2024

通过将风险敏感强化学习优化等效确定性实现标准强化学习

TL;DR我们研究了具有优化的等效保证风险(OCE risk)的风险敏感强化学习(Risk-Sensitive Reinforcement Learning),并提出了两种基于标准强化学习的通用元算法:一种基于乐观算法,另一种基于策略优化。