MMJul, 2023

非累计目标的强化学习

TL;DR针对优化问题目标函数不能直接作为奖励和累计的情况,提出了一种基于 Bellman 最优条件下广义 Bellman 更新算法,其中使用一种广义操作代替原来 Bellman 更新规则中的求和操作。