Sep, 2024

优化蒙特卡洛树搜索以增强冻结湖环境中的决策能力

TL;DR本研究针对传统强化学习任务“冻结湖”环境中的复杂决策问题,提出了一种优化的蒙特卡洛树搜索(MCTS)实现。通过结合累积奖励和访问计数表,以及上置信界(UCT)公式,该方法显著提高了学习效率,实验结果显示其在随机性环境中有效地提高了奖励最大化和成功率,缩短了收敛时间。