Apr, 2023

半无限约束马尔可夫决策过程与高效强化学习

TL;DR本文提出了一种名为半无限约束马尔可夫决策过程(SICMDP)的模型,设计了两种基于模型和策略优化的强化学习算法(SI-CRL和SI-CPO),并在理论上进行了分析,以解决具有连续约束的决策任务。