通过实验计算梯度：使用 LSTM 和记忆近端策略优化进行黑盒量子控制

MMFeb, 2018

通过实验计算梯度：使用 LSTM 和记忆近端策略优化进行黑盒量子控制

Taking gradients through experiments: LSTMs and memory proximal policy optimization for black-box quantum control

Moritz August, José Miguel Hernández-Lobato

TL;DR本文介绍了黑盒量子控制作为一个有趣的强化学习问题在机器学习领域的应用，并分析了在量子物理中出现的强化学习问题的结构，提出了通过受随机策略梯度训练长短期记忆（LSTM）网络进行参数化的代理，提供了解决这些问题的一般方法，引入了一种基于此分析的近端策略优化（PPO）算法的变体，称为内存近端策略优化（MPPO），并展示了如何将其应用于特定的学习任务，并呈现了数字实验的结果，表明我们的方法在离散和连续控制参数的量子控制的几项学习任务中实现了最先进的结果。

Abstract

In this work we introduce the application of black-box quantum control as an interesting rein- forcement learning problem to the machine learning community. We analyze the structure of the →

black-box quantum control reinforcement learning lstm networks stochastic policy gradients quantum control

发现论文，激发创造

基于记忆的循环神经网络控制

本研究利用 RNN 与反向传播算法，扩展了两个连续控制的无模型算法，能够成功地解决大量的物理控制问题，包括部分受到噪声干扰而需要信息短暂整合的问题，以及需要在多个时间步骤中保留信息的长期记忆问题，并且使用简化版本的 Morris 水迷宫任务进行了探索与记忆结合问题的研究。同时，通过直接从像素中学习，能够处理高维度的观测问题。

Dec, 2015

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

深度强化学习控制排队网络

本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题，提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法，并使用方差抑制技术解决了采样带来的误差问题，试验结果表明在具有多种负载条件的系统中，该算法可以生成优于现有启发式方法的控制策略，甚至可以获得接近于最优的结果。

Jul, 2020

使用连续内存状态学习深度神经网络策略

通过内部记忆的方法，学习适用于高维连续系统（如机器人操纵器）的策略，通过把记忆状态加到系统的状态和动作空间中，使用有监督学习方法 Guided Policy Search 分解策略搜索问题，并通过轨迹优化和监督学习相结合的方式获得具有有效记忆和回忆策略的复杂策略

Jul, 2015

学习鲁棒和高精度的量子控制

本文展示了可以将时间有序的量子演化视作层次有序的神经网络，并将鲁棒控制看作是训练高度泛化的神经网络，利用批处理优化技巧使优化的结果能够显着提高控制的鲁棒性和保持高保真度。

Nov, 2018

深度 Q 学习和近端策略优化：在材料分类任务中的性能比较

本文基于 Petri 网仿真环境，比较了深度强化学习中的 DQN 和 PPO 算法。结果表明，PPO 在所有的评估指标上都表现优异，说明基于策略的算法在解决高维状态和动作空间问题上具有优势。该研究为深度强化学习在生产系统领域提供了不同算法的有效性和适用性。

Jun, 2023

深度强化学习下的网络控制处理

探讨了用于解决处理网络控制优化问题的先进策略梯度算法的理论和实际应用，为此针对马尔可夫决策过程和半马尔可夫决策过程问题，优化了现有的策略改进边界，并提出了新的策略改进边界，并使用定制的 PPO 算法对处理网络控制问题进行了解决。

May, 2022

使用双时间尺度策略梯度算法的基于分位数的深度强化学习

在强化学习中考虑累积奖励分位数优化的问题，使用神经网络参数化策略，提出了 Quantile-Based Policy Optimization（QPO）和 Quantile-Based Proximal Policy Optimization（QPPO）算法来解决深度强化学习问题，实验结果表明该方法在分位数优化指标下优于现有基准算法。

May, 2023

序列生成的近端策略优化及其动态版本

本论文提出了使用动态的 PPO 算法来替换 policy gradient 来更有效地完成序列生成任务（包括虚假聊天机器人），并展示了 PPO 和 PPO-dynamic 相对于 policy gradient 算法在稳定性和性能上的优越性。

Aug, 2018

基于分位数的强化学习策略优化

本文提出了一种名为 Quantile-Based Policy Optimization（QPO）的 RL 算法，与原有算法相比在 quantile 目标的情况下表现更好，算法使用神经网络对策略进行参数化，同时使用两个相互耦合的迭代来估计量位和策略参数。

Jan, 2022