Aug, 2024

通过引导搜索增强强化学习

TL;DR本研究旨在解决离线强化学习中的Markov决策问题,提出利用引导策略来提升表现。通过将蒙特卡罗树搜索(MCTS)作为引导,研究表明这种方法显著改善了强化学习代理的性能,超越了各方法单独使用的效果。