无懊悔地学习纯量子态

Jun, 2024

Learning pure quantum states (almost) without regret

Josep Lumbreras, Mikhail Terekhov, Marco Tomamichel

TL;DR使用一种基于中位数最小二乘估计器的全新的断层扫描算法，利用对未知状态有偏的测量选项并产生在线估计，在所观测样本数量上得到了最佳的结果（至多对数项除外）。

Abstract

We initiate the study of quantum state tomography with minimal regret. A learner has sequential oracle access to an unknown pure quantum state, and in each round selects a →

quantum state tomography minimal regret pure probe state cumulative regret tomography algorithm

发现论文，激发创造

量子态的在线学习

该研究论文研究了如何通过量子状态的测量来生成假设，以指导下一次测量的选取，即减少答案预测失误率。

Feb, 2018

在线学习众多量子对象

通过应用正则化跟随领导算法，在学习正半定矩阵的通用子集和其他量子物体时，证明了一个次线性的遗憾界，并建立了在量子信息理论中有用的各种矩阵分析结果。

Jun, 2024

关于态重构的量子纠缠性与复制复杂度之间的最佳权衡

基于研究对现代量子设备的实际限制如何影响量子学习的复杂性，通过自然环境中对多个副本进行测量和采用 Schur-Weyl 采样的方式，揭示了量子学习中量子复制与纠缠之间的平滑交换，特别是在拓扑近似条件下的观测联通性以及从最大混合态偏离程度的估计。

Feb, 2024

量子状态的可学习性

利用计算学习理论，本文证明：对于大多数实际目的，传统的量子态重构只需测量数量呈线性增长关系，而非指数函数关系；同时，该定理可应用于量子计算的模拟和验证领域。

Aug, 2006

量子态的阴影成像

该论文介绍了 “影子断层扫描” 的概念，给出了仅需测量 $\widetilde {O} (\varepsilon^{-4}\cdot \log^{4} M\cdot\log D)$ 个状态副本就可以高概率地解决该问题的方法，该方法在量子行业中有许多实际应用，例如量子密码学、量子软件保护、量子通信等。

Nov, 2017

用最优后悔学习在度量空间中控制

探讨了针对具有任意状态和动作空间的有限时间确定性控制系统的在线强化学习问题，提出了一种基于上置信强化学习的 Q 函数的乐观估计算法，证明了算法的性能界限和下界。

May, 2019

使用对数遗憾值的 $Q$- 学习

该论文展示了第一个非渐近结果，证明了如果最优 $Q$- 函数存在严格正的次优性差，则无模型算法可以实现每段落的表格强化学习的对数累积后悔，并且我们将我们的分析扩展到折扣设置，并获得类似的对数累积后悔界限。

Jun, 2020

高效学习线性二次调节器的对数损失

本文介绍了 Linear Quadratic Control 系统的学习问题和非常高效的算法，算法的遗憾只随着决策步数的对数级别增加，并且当某些特定条件成立时可以得到更好的结果，但当条件不成立时，无法避免遗憾增长的平方根级别。

Feb, 2020

利用线性函数近似的强化学习的一阶遗憾：一种鲁棒估计方法

本研究基于鲁棒 Catoni 平均值估计器，提出一种新的鲁棒自归一化浓度界，解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题，并证明了在线性 MDP 设定下，可以获得与最优策略性能某种度量成比例的遗憾上界。

Dec, 2021

有限时间跨度下连续时间线性二次强化学习的对数损失

研究连续时间线性二次调节强化学习问题，提出基于连续时间观测和控制的最小二乘算法和基于离散时间观测和分段常数控制的最小二乘算法，并分析了它们的误差界限和实现可能性。

Jun, 2020