muzero | BriefGPT - AI 论文速递

关键词muzero

搜索结果 - 10

ICLR高效的多智能体强化学习规划
多智能体强化学习算法（MARL）通过采取模型化方法来提高样本效率并在多个任务中表现出可比或更好的性能。
PDF2 months ago
MiniZero: 两种强化学习算法 AlphaZero 和 MuZero 在围棋、奥赛罗和雅达利游戏上的比较分析
该论文介绍了 MiniZero，一种支持 AlphaZero、MuZero、Gumbel AlphaZero 和 Gumbel MuZero 四种先进算法的零知识学习框架，并通过系统评估这些算法在两个棋盘游戏和 57 个 Atari 游戏中
PDF9 months ago
探索代理人环境，以优化其模型以获得更好的决策
为了提高人工智能的决策能力，文章提出了一种基于预测和规划的决策树算法 MuZero，通过该算法对决策树进行探索和改进，显著提高了代理人的决策能力。
PDFa year ago
MuZero 学习的模型是什么？
本文介绍了一种名为 MuZero 的深度模型强化学习算法，研究其深度学习模型的学习目标和用于策略改进的实用性，结果表明 MuZero 所学模型不能有效地推广到评估未知的策略，这限制了我们使用该模型进行计划进一步改善当前策略的程度。
PDFa year ago
解决搜索问题的 AlphaZero 启发方法
AlphaZero 和 MuZero 是使用机器学习技术进行超级人类棋类游戏表现的程序，并尝试将其应用于解决搜索问题，本文描述了在搜索问题中如何使用 AlphaZero 技术进行表示以及求解规则，并提出了适用于该类问题的一种 Monte C
PDF2 years ago
公正博弈：强化学习的挑战
本文介绍了 AlphaZero 和 MuZero 的算法，探究了它们的局限性，并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题，并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。
PDF2 years ago
使用自监督的世界模型进行规程泛化
在本文中，我们评估了 MuZero 代理在程序化和任务通用性方面的性能，并通过比较自由模型代理，确定了模型代理的泛化能力。我们发现，计划、自监督表示学习和程序数据多样性是程序化通用性的三个因素，并表明结合这些技术可以实现出色的通用性性能和数
PDF3 years ago
适当价值等效性
本文研究模型为基础的强化学习中的价值等价原则及其在 MuZero 算法优化中的应用。
PDF3 years ago
Muesli: 综合政策优化的改进
该论文提出一种新的政策更新方式 Muesli，它将正则化策略优化与模型学习结合作为辅助损失函数。该方法在 Atari 上取得了与 MuZero 相媲美的性能，而没有使用深度搜索。同时其计算速度与基线模型相当，并在连续控制和 9x9 围棋等领
PDF3 years ago
ICLR论规划在基于模型的深度强化学习中的作用
本文研究了 MuZero，一种先进的模型基强化学习算法在控制任务、Atari 游戏和 9x9 围棋等多种环境下的表现，阐述了规划在强化学习中的作用，以及如何在规划过程中优化算法，提高表现，并指出单独采用规划无法实现强的泛化能力。
PDF4 years ago