Feb, 2023

具有对数最坏情况遗憾的量子强化学习的可证明高效探索

TL;DR我们提出了一种新的量子强化学习算法,并证明了对于 tabular MDPs and linear mixture MDPs,该算法的最坏情况后悔度是多项式级别的,是量子 RL 在线探索具有可证明的对数最坏情况后悔度的第一项研究。