Jun, 2024

量子策略梯度训练问题

TL;DR研究了参数化量子电路为基础的强化学习策略的可训练性,发现拥有指数小梯度和梯度爆炸的标准荒原问题,以及这些现象与基态分区和分区映射相关,采用连续型分区的基态可以确保多项式数量的训练窗口和测量次数,该研究在多臂赌博机环境中进行了实证验证。