在线学习众多量子对象

MMJun, 2024

Online learning of a panoply of quantum objects

Akshay Bansal, Ian George, Soumik Ghosh, Jamie Sikora, Alice Zheng

TL;DR通过应用正则化跟随领导算法，在学习正半定矩阵的通用子集和其他量子物体时，证明了一个次线性的遗憾界，并建立了在量子信息理论中有用的各种矩阵分析结果。

Abstract

In many quantum tasks, there is an unknown quantum object that one wishes to learn. An online strategy for this task involves adaptively refining a hypothesis to reproduce such an object or its measurement statistics. A common evaluation metric for such a strategy is its regret, or rou

quantum tasks regret bound learning quantum objects positive semidefinite matrices matrix analysis

发现论文，激发创造

无懊悔地学习纯量子态

使用一种基于中位数最小二乘估计器的全新的断层扫描算法，利用对未知状态有偏的测量选项并产生在线估计，在所观测样本数量上得到了最佳的结果（至多对数项除外）。

Jun, 2024

在线学习：超越遗憾

本研究探讨了一类广泛问题的在线可学性，并将其扩展到远超过外部遗憾的性能评估简单规范。我们的框架同时捕捉了其他著名规范，例如内部和一般 Phi 规范、学习使用非加性全局成本函数、Blackwell 的可挑战性、预测者的校准、自适应遗憾等。我们展示了在所有这些情况下的可学习性归因于控制相同的三个量：马田哥小定理收敛项、如果已知未来则能够表现良好的能力描述项、以及顺序 Rademacher 复杂性的概括，该复杂性在 (Rakhlin, Sridharan, Tewari, 2010) 中得到研究。由于我们直接研究问题的复杂性，而不是专注于高效算法的开发，因此我们能够改进和扩展许多已知结果，这些结果之前是通过算法构造推导出来的。

Nov, 2010

量子态的在线学习

该研究论文研究了如何通过量子状态的测量来生成假设，以指导下一次测量的选取，即减少答案预测失误率。

Feb, 2018

高效学习线性二次调节器的对数损失

本文介绍了 Linear Quadratic Control 系统的学习问题和非常高效的算法，算法的遗憾只随着决策步数的对数级别增加，并且当某些特定条件成立时可以得到更好的结果，但当条件不成立时，无法避免遗憾增长的平方根级别。

Feb, 2020

零和游戏的对数遗憾量子学习算法

我们提出了首个在线量子算法，用于零和游戏，可以在 $\tilde O (1)$ 的时间内计算 $m \times n$ 矩阵零和游戏的 $\varepsilon$- 近似纳什均衡，与 $m$，$n$ 的经典算法相比，取得了二次的改进，同时实现了一个快速的量子线性规划求解器。

Apr, 2023

未知马尔可夫博弈中的在线学习

本文研究未知马尔可夫博弈的在线学习问题以及提出了一种算法，实现了与后记中的最佳响应之间亚线性的最小化值的竞争。

Oct, 2020

用最优后悔学习在度量空间中控制

探讨了针对具有任意状态和动作空间的有限时间确定性控制系统的在线强化学习问题，提出了一种基于上置信强化学习的 Q 函数的乐观估计算法，证明了算法的性能界限和下界。

May, 2019

在线控制的对数后悔

本研究中，我们研究了在线控制下的线性动态系统在拥有转移动态知识的拥有敌意的变化强凸成本函数下的最优遗憾界限，并提出了在线梯度下降和在线自然梯度两种不同且高效的迭代方法来实现遗憾边界小而有效。

Sep, 2019

在线组合优化中的遗憾

本文研究使用二进制向量表示决策者可能的选择时的在线线性优化问题及其反悔，探讨了决策者在不同反馈条件下的最优反悔幅度，并提出了一种使用镜像下降算法和隐式归一化预测策略的解决方案，获得了半强盗情形的最优界限，同时也证明了在线组合优化基准算法的次优性。

Apr, 2012

线性约束在线 LQG 问题的策略优化的遗憾分析

在线优化方法可用于研究在线线性二次型调节器问题，本研究通过在线乐观牛顿法提供了一个基于函数序列的在线控制器，并利用后悔度量定义了算法的性能界限。

Mar, 2024