Oct, 2024
燃烧RED:解锁子任务驱动的强化学习和平均奖励马尔可夫决策过程中的风险意识
Burning RED: Unlocking Subtask-Driven Reinforcement Learning and
Risk-Awareness in Average-Reward Markov Decision Processes
TL;DR本研究解决了平均奖励马尔可夫决策过程在强化学习中被忽视的问题。通过引入奖励扩展微分(RED)强化学习框架,提出了一种可以有效同时解决多个子任务的算法。研究显示,这些算法能够首次以完全在线的方式优化条件风险价值(CVaR)风险度量,具有重要的应用潜力。