May, 2024
利用强化学习处理非累计目标的决策过程
Tackling Decision Processes with Non-Cumulative Objectives using Reinforcement Learning
Maximilian Nägele, Jan Olle, Thomas Fösel, Remmy Zen, Florian Marquardt
TL;DR本文介绍了非累积马尔可夫决策过程(NCMDPs)与标准马尔可夫决策过程(MDPs)之间的一种映射关系,并展示了在强化学习中的应用,包括经典控制、金融组合优化和离散优化问题。通过我们的方法,相较于依赖标准 MDPs,我们可以改善最终性能和训练时间。