Feb, 2023

量子计算在情节式强化学习中提供指数级的遗憾改善

TL;DR本文提出了基于量子上界置信区间(UCB)算法框架来解决具有量子Oracle的状态演化情况下的MDP有限时间尺度下的强化学习问题,并通过实验表明该算法框架较传统算法提高了性能。