通过引导搜索增强强化学习
本文提出一种基于模型的强化学习技术,该技术将Monte-Carlo树搜索应用于无限期Marov决策过程的有限期版本,并使用值函数和策略函数的组合来规定有限期问题的终端条件或决策树的叶节点评估器。作者还提供了第一个基于树搜索的强化学习算法的样本复杂度边界,并证明由深度神经网络实现的技术能够创建一种竞争性人工智能代理。
May, 2018
本研究提出一种用于模拟搜索的政策梯度搜索方法,通过在线更新神经网络模拟策略,实现避免使用搜索树的效果。在Hex上,与MCTS相比,PGS取得了相当的性能,并且使用PGS进行专家迭代训练的代理能够在9x9 Hex中击败最强的开源 Hex 代理 MoHex 2.0。
Apr, 2019
本文提出了一种使用基于Monte-Carlo Tree Search和深度强化学习相结合的方法的搜索算法,通过1)用于潜在无限奖励问题的新颖行动价值规范机制,2)定义虚拟损失函数实现有效搜索并行化,以及3)由自我对弈逐代训练的策略网络引导搜索,来提高搜索算法的效果。我们在同类游戏SameGame上进行实验,结果表明我们的算法在多个游戏宽度上优于基准算法,并与公共状态搜索问题的最新算法竞争力相当。
May, 2020
研究提出两种方法来提高蒙特卡罗树搜索(Monte-Carlo Tree Search,MCTS)算法中的收敛速率和探索程度,基于引入的备份操作与熵正则化,提供强有力的理论保证,实验证明方法有效。
Feb, 2022
通过结合强化学习和计划,提出了一种称为Policy Augmented MCTS(PA-MCTS)的新型混合决策方法,将策略的动作价值估计结合到MCTS中,以更好地适应非稳态环境下的决策制定。经测试,PA-MCTS相对于标准MCTS和纯强化学习能更快地收敛并做出更好的决策。
Feb, 2022
本文探讨在有限时间马尔可夫决策过程的框架下,基于树形搜索策略的蒙特卡罗树搜索(MCTS)。提出了一种动态抽样树策略,有效地分配有限的计算预算,以最大化选择最佳根节点动作的正确性概率。实验结果表明,所提出的树策略比其他竞争方法更有效。
Apr, 2022
本文介绍一种结合 Policy Gradient 和 Monte-Carlo Tree Search 的混合策略,旨在克服两种方法在应对非马尔可夫决策过程上的困难,有效提升算法的效率。
Jun, 2022
在非固定环境下,通过结合过时策略的动作价值估计和最新环境模型的在线搜索,我们引入了一种名为PA-MCTS的增强蒙特卡洛树搜索方法,该方法解决了时限有限情况下的顺序决策问题,并在与AlphaZero和Deep Q Learning的对比实验中显示优越性。
Jan, 2024
离线强化学习(RL)在探索可能成本高昂或不安全的真实世界应用中至关重要。然而,离线学习的策略通常是次优的,需要进一步进行在线微调。本文解决了离线到在线微调的基本困境:如果智能体保持悲观态度,可能无法学到更好的策略,而如果直接变得乐观,性能可能会突然下降。我们证明贝叶斯设计原则在解决这种困境中至关重要。智能体不应采取乐观或悲观的策略,而是应根据其对最优策略的信念采取行动。这样的概率匹配智能体可以避免性能突然下降,同时保证找到最优策略。基于我们的理论发现,我们提出了一种优于现有方法的新算法,在各种基准测试中展示了我们方法的有效性。总体而言,所提出的方法为离线到在线RL提供了一种新的视角,有潜力使离线数据的学习更加有效。
May, 2024
本研究针对传统强化学习任务“冻结湖”环境中的复杂决策问题,提出了一种优化的蒙特卡洛树搜索(MCTS)实现。通过结合累积奖励和访问计数表,以及上置信界(UCT)公式,该方法显著提高了学习效率,实验结果显示其在随机性环境中有效地提高了奖励最大化和成功率,缩短了收敛时间。
Sep, 2024