Feb, 2023
具有对数最坏情况遗憾的量子强化学习的可证明高效探索
Provably Efficient Exploration in Quantum Reinforcement Learning with Logarithmic Worst-Case Regret
Han Zhong, Jiachen Hu, Yecheng Xue, Tongyang Li, Liwei Wang
TL;DR我们提出了一种新的量子强化学习算法,并证明了对于 tabular MDPs and linear mixture MDPs,该算法的最坏情况后悔度是多项式级别的,是量子 RL 在线探索具有可证明的对数最坏情况后悔度的第一项研究。