May, 2024

利用强化学习处理非累计目标的决策过程

TL;DR本文介绍了非累积马尔可夫决策过程(NCMDPs)与标准马尔可夫决策过程(MDPs)之间的一种映射关系,并展示了在强化学习中的应用,包括经典控制、金融组合优化和离散优化问题。通过我们的方法,相较于依赖标准 MDPs,我们可以改善最终性能和训练时间。