MMFeb, 2018
通过实验计算梯度:使用 LSTM 和记忆近端策略优化进行黑盒量子控制
Taking gradients through experiments: LSTMs and memory proximal policy optimization for black-box quantum control
Moritz August, José Miguel Hernández-Lobato
TL;DR本文介绍了黑盒量子控制作为一个有趣的强化学习问题在机器学习领域的应用,并分析了在量子物理中出现的强化学习问题的结构,提出了通过受随机策略梯度训练长短期记忆(LSTM)网络进行参数化的代理,提供了解决这些问题的一般方法,引入了一种基于此分析的近端策略优化(PPO)算法的变体,称为内存近端策略优化(MPPO),并展示了如何将其应用于特定的学习任务,并呈现了数字实验的结果,表明我们的方法在离散和连续控制参数的量子控制的几项学习任务中实现了最先进的结果。