Dec, 2023

不断变化的难以预测环境中的学习与规划

TL;DR在不确定、随机和时变环境中,自主系统的最优决策面临重大挑战。本研究通过将时变Markov决策过程(TVMDP)的概念与部分可观测性相结合,提出了时变部分可观测Markov决策过程(TV-POMDP)来建模此类环境,并通过模拟和实际硬件验证,证明该框架在随机、不确定和时变领域中具有卓越的性能。