Dec, 2023

信仰自由的深度强化学习和蒙特卡罗树搜索在检验与维护规划中的研究

TL;DR我们提出了一种新颖的深度强化学习(DRL)体系架构,用于处理不确定性情况下的顺序决策过程,如检查与维护计划。与其他针对检查与维护计划的DRL算法不同,所提出的+RQN架构不计算信念状态,而是直接处理错误的观测。我们将该算法应用于一个基本的受损系统的检查与维护计划问题。此外,我们研究了Monte Carlo树搜索在检查与维护问题中的性能,并将其与+RQN进行比较。比较包括对两种方法生成的策略进行统计分析,以及它们在信念空间中的可视化。