无懊悔地学习纯量子态
基于研究对现代量子设备的实际限制如何影响量子学习的复杂性,通过自然环境中对多个副本进行测量和采用 Schur-Weyl 采样的方式,揭示了量子学习中量子复制与纠缠之间的平滑交换,特别是在拓扑近似条件下的观测联通性以及从最大混合态偏离程度的估计。
Feb, 2024
该论文介绍了 “影子断层扫描” 的概念,给出了仅需测量 $\widetilde {O} (\varepsilon^{-4}\cdot \log^{4} M\cdot\log D)$ 个状态副本就可以高概率地解决该问题的方法,该方法在量子行业中有许多实际应用,例如量子密码学、量子软件保护、量子通信等。
Nov, 2017
探讨了针对具有任意状态和动作空间的有限时间确定性控制系统的在线强化学习问题,提出了一种基于上置信强化学习的 Q 函数的乐观估计算法,证明了算法的性能界限和下界。
May, 2019
该论文展示了第一个非渐近结果,证明了如果最优 $Q$- 函数存在严格正的次优性差,则无模型算法可以实现每段落的表格强化学习的对数累积后悔,并且我们将我们的分析扩展到折扣设置,并获得类似的对数累积后悔界限。
Jun, 2020
本文介绍了 Linear Quadratic Control 系统的学习问题和非常高效的算法,算法的遗憾只随着决策步数的对数级别增加,并且当某些特定条件成立时可以得到更好的结果,但当条件不成立时,无法避免遗憾增长的平方根级别。
Feb, 2020
本研究基于鲁棒 Catoni 平均值估计器,提出一种新的鲁棒自归一化浓度界,解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题,并证明了在线性 MDP 设定下,可以获得与最优策略性能某种度量成比例的遗憾上界。
Dec, 2021
研究连续时间线性二次调节强化学习问题,提出基于连续时间观测和控制的最小二乘算法和基于离散时间观测和分段常数控制的最小二乘算法,并分析了它们的误差界限和实现可能性。
Jun, 2020