Dec, 2023

带有噪声状态观测的马尔可夫决策过程

TL;DR通过建模不确定性来解决马尔可夫决策过程(MDPs)中一类特定的嘈杂状态观测问题,提出了两种新的算法方法,一种是用于有限时间窗口内有效噪声估计的二阶重复动作方法,另一种是一组贝叶斯算法,通过模拟实验证实了这些方法在不同场景下尤其在具有不同稳定分布的环境中的有效性。