Feb, 2020

马尔科夫决策过程中约束风险的强化学习策略

TL;DR本研究提出了一种基于MDPs的风险受限规划算法,它将UCT-like搜索与通过线性规划实现的风险受限动作选择相结合,以最大化在低于所需阈值的情况下遇到故障状态的预期贴现总和回报。