Oct, 2023
在线风险感知适应的分布式强化学习
Distributional Reinforcement Learning with Online Risk-awareness Adaption
Yupeng Wu, Wenjie Huang
TL;DR介绍了一个新的框架 Distributional RL with Online Risk Adaption (DRL-ORA),通过在线解决一个总变差最小化问题来量化随机不确定性和认识性不确定性,并通过动态选择认识性风险水平,以解决固定风险水平带来的次优性问题。