探索代理人环境,以优化其模型以获得更好的决策
本文提出了 MuZero 算法,它通过结合基于树的搜索和学习模型实现了对一系列具有挑战性且视觉复杂的领域的超人类表现,在 57 款不同的 Atari 游戏上以及对 Go、国际象棋和象棋等游戏的测试中,都表现出了与 AlphaZero 算法相当的性能,而无需知道游戏规则。
Nov, 2019
我们提出了一种名为 PiZero 的新方法,使代理能够在完全与真实环境脱节的自主创建的抽象搜索空间中进行规划。与之前的方法不同,这使得代理能够在任意时间尺度上进行高层规划,并以复合或时间扩展的动作形式进行推理,这在需要执行大量基础微动作来执行相关宏动作的环境中非常有用。此外,我们的方法比可比较的之前方法更通用,因为它处理具有连续动作空间和部分可观察性的设置。我们在多个领域,包括导航任务和 Sokoban,对我们的方法进行了评估。实验结果表明,我们的方法在没有假设访问环境模拟器的情况下,优于可比较的之前方法。
Aug, 2023
本文介绍了一种名为 MuZero 的深度模型强化学习算法,研究其深度学习模型的学习目标和用于策略改进的实用性,结果表明 MuZero 所学模型不能有效地推广到评估未知的策略,这限制了我们使用该模型进行计划进一步改善当前策略的程度。
Jun, 2023
在单智能体环境中,通过直接最大化回合得分而不是最小化规划损失,可以在不改变蒙特卡洛树搜索算法和神经网络结构的情况下,优于 AlphaZero。
Jun, 2024
本文研究了深度模型与强化学习中的样本效率问题。通过将认知不确定性引入到计划树中,规避了标准方法的不确定性传播,并通过 MuZero 算法进行了评估验证。 实验结果表明,可以通过不确定性规划实现有效的深度探索,从而显著提高样本效率。
Oct, 2022
UniZero 是一种基于 Transformer 的新增方法,通过解耦潜在状态和历史信息,能够更好地捕捉长期依赖关系,提供了更加广泛和高效的潜在空间规划,相比 MuZero-style 算法在 Atari 100k 基准测试中表现更好,且在需要长期记忆的基准测试中显著优于之前的基线模型。
Jun, 2024
本文提出一种改进 MuZero 强化学习算法的方法,通过将环境的对称性显式地纳入其世界模型架构,既提高了数据效率,又提高了泛化能力,并在 MiniPacman 和 Chaser 上进行测试。
Feb, 2023
本文提出了一个基于策略迭代的通用框架,可以在对一小部分行动的样本进行策略评估和改进的情况下对强化学习算法进行推理。其中,样本化 MuZero 是 MuZero 算法的一个扩展,可以在计划采样动作的情况下学习具有任意复杂行动空间的目标。作者用围棋和 DeepMind 的控制套件以及真实世界的强化学习测试开展了实证研究。
Apr, 2021
使用离散自编码器来处理动作在随机环境中引起的多种可能性,再结合随机版 Monte Carlo 树搜索算法规划代理的动作和代表环境反应的离散潜变量,明显优于 MuZero 在处理随机国际象棋和 DeepMind Lab 等部分观测模型的 RL 问题中的表现。
Jun, 2021
本文提出了一种自我演化的多智能体系统 TiZero,使用自适应课程学习、自我博弈策略、多方策略的优化目标等创新方法克服了多个智能体系统协调、长期规划和非传递性等现有算法无法解决的难题,并在评估环境中全胜,比谷歌提供的前一代系统获胜率提高了 30% 以上。对 TiZero 的技术进行了评估,包括在 Overcooked,多智能体粒子环境,井字棋和连连看等多个领域中的应用。
Feb, 2023