AlphaZeroES:直接最大化得分胜过规划损失最小化
提出了 GAZ 'Play-to-Plan'(GAZ PTP)算法,并在两个组合优化问题,旅行商问题和工作车间调度问题上,表现出了比 GAZ 的单人游戏变体更好的效果,而且只需用一半的搜索模拟预算。
Jun, 2023
本文提出了一种 AlphaZero 启发的 MCTS 包装器,将其与时间差异学习智能体相结合,在不需要 GPU 或 TPU 等高性能计算资源的情况下,在多个复杂的游戏中成功打败强劲对手,取得了显著优势。
Apr, 2022
为了提高人工智能的决策能力,文章提出了一种基于预测和规划的决策树算法 MuZero,通过该算法对决策树进行探索和改进,显著提高了代理人的决策能力。
Jun, 2023
本文提出了 MuZero 算法,它通过结合基于树的搜索和学习模型实现了对一系列具有挑战性且视觉复杂的领域的超人类表现,在 57 款不同的 Atari 游戏上以及对 Go、国际象棋和象棋等游戏的测试中,都表现出了与 AlphaZero 算法相当的性能,而无需知道游戏规则。
Nov, 2019
本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法,通过 1)用于潜在无限奖励问题的新颖行动价值规范机制,2)定义虚拟损失函数实现有效搜索并行化,以及 3)由自我对弈逐代训练的策略网络引导搜索,来提高搜索算法的效果。我们在同类游戏 SameGame 上进行实验,结果表明我们的算法在多个游戏宽度上优于基准算法,并与公共状态搜索问题的最新算法竞争力相当。
May, 2020
展示 AlphaZero 的 heuristics 可以近似于规则化策略优化问题的解,并通过提出一种利用此解的变量来实现,实验表明该算法在多个领域中可靠地优于原始算法。
Jul, 2020
此篇论文探讨了在比分规则下,AlphaZero 算法在处理完美信息的双人零和游戏时可能会有积分亚优的问题,并给出了一个理论解释,阐述了在输赢状态下出于不同考虑的策略选择。
Jan, 2022
使用自然语言处理中的两种评估技术,探究了 AlphaZero 在 Hex 游戏中的内部表示,研究发现 MCTS 在神经网络学习之前就发现了相关概念,而短期终局规划概念对应最终层,长期计划对应中间层。
Nov, 2022
我们提出了一种名为 PiZero 的新方法,使代理能够在完全与真实环境脱节的自主创建的抽象搜索空间中进行规划。与之前的方法不同,这使得代理能够在任意时间尺度上进行高层规划,并以复合或时间扩展的动作形式进行推理,这在需要执行大量基础微动作来执行相关宏动作的环境中非常有用。此外,我们的方法比可比较的之前方法更通用,因为它处理具有连续动作空间和部分可观察性的设置。我们在多个领域,包括导航任务和 Sokoban,对我们的方法进行了评估。实验结果表明,我们的方法在没有假设访问环境模拟器的情况下,优于可比较的之前方法。
Aug, 2023