Jan, 2024

实践中学习:非稳态马尔可夫决策过程中的自适应决策

TL;DR在处理非平稳环境的序贯决策问题中,我们提出了一种自适应蒙特卡洛树搜索算法,通过学习环境的更新动态来改进决策过程,减少过分悲观的行为并提高决策速度。