Jul, 2023

基于深度强化学习的 POMDP 推断和鲁棒解决方案:铁路最优维护应用

TL;DR本文提出一个结合推断和强化学习的框架,通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数,并将参数分布通过域随机化融入到模型不确定性的解决中,解决该方法适用于铁路资产维护规划等实际问题。