A0C：连续动作空间中的 Alpha Zero

May, 2018

A0C: Alpha Zero in Continuous Action Space

Thomas M. Moerland, Joost Broekens, Aske Plaat, Catholijn M. Jonker

TL;DR该研究论文介绍了如何将 Alpha Zero 的算法模型用于连续动作域的强化学习问题，并给出了针对摆钟摆问题的初步实验结果，为在连续动作域下应用 Alpha Zero 算法模型提供了理论基础和有效性证明。

Abstract

A core novelty of alpha zero is the interleaving of tree search and deep learning, which has proven very successful in board games like Chess, Shogi and Go. These games have a discrete action space. However, many

alpha zero tree search deep learning continuous action space reinforcement learning

发现论文，激发创造

复杂动作空间中的学习与规划

本文提出了一个基于策略迭代的通用框架，可以在对一小部分行动的样本进行策略评估和改进的情况下对强化学习算法进行推理。其中，样本化 MuZero 是 MuZero 算法的一个扩展，可以在计划采样动作的情况下学习具有任意复杂行动空间的目标。作者用围棋和 DeepMind 的控制套件以及真实世界的强化学习测试开展了实证研究。

Apr, 2021

深度强化学习的连续控制

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015

公正博弈：强化学习的挑战

本文介绍了 AlphaZero 和 MuZero 的算法，探究了它们的局限性，并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题，并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。

May, 2022

连续状态和行动空间中强化学习的几何学

使用几何镜头建立对连续状态和动作空间的理论理解，以证明可达状态的低维流形的维度最多为动作空间维度加一，并且通过使用 DDPG 的深度神经网络训练出的低维度表示策略学习表现良好。

Dec, 2022

连续动作领域的策略搜索：概述

本文综述了连续动作策略搜索的研究现状，包括深度强化学习算法、基于进化算法的竞争者、贝叶斯优化和定向探索方法等，提供了一种统一的视角，并探讨了各种方法的样本效率特性。

Mar, 2018

参数化行动空间下的深度强化学习

该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间，成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别，并比 2012 RoboCup 冠军代理更可靠地得分。

Nov, 2015

通过学习模型规划，掌握雅达利、围棋、国际象棋和将棋

本文提出了 MuZero 算法，它通过结合基于树的搜索和学习模型实现了对一系列具有挑战性且视觉复杂的领域的超人类表现，在 57 款不同的 Atari 游戏上以及对 Go、国际象棋和象棋等游戏的测试中，都表现出了与 AlphaZero 算法相当的性能，而无需知道游戏规则。

Nov, 2019

使用通用增强学习算法通过自我对弈掌握国际象棋和将棋

该研究介绍了使用新的 AlphaZero 算法以及无领域知识的方式进行强化学习，让计算机在三个领域的棋类游戏：围棋、象棋和将棋中均以超级专业水平进行游戏。

Dec, 2017

AlphaZero 五子棋

AlphaZero 算法通过将深度学习与蒙特卡洛树搜索相结合，在象棋、围棋和五子棋等棋盘游戏中取得了巨大的成功。

Sep, 2023

参数化深度 Q-Networks 学习：离散 - 连续混合动作空间增强学习

在本文中，我们提出了一种带参数的深度 Q 网络（P-DQN）框架，用于处理混合行动空间，此算法无需任何逼近或者弛豫，充分发挥 DQN 和 DDPG 精神，并且在 RoboCup 足球和王者荣耀游戏中的仿真实验证明了我们方法的有效性。

Oct, 2018