Jan, 2024
实践中学习:非稳态马尔可夫决策过程中的自适应决策
Act as You Learn: Adaptive Decision-Making in Non-Stationary Markov Decision Processes
Baiting Luo, Yunuo Zhang, Abhishek Dubey, Ayan Mukhopadhyay
TL;DR在处理非平稳环境的序贯决策问题中,我们提出了一种自适应蒙特卡洛树搜索算法,通过学习环境的更新动态来改进决策过程,减少过分悲观的行为并提高决策速度。