具有对数最坏情况遗憾的量子强化学习的可证明高效探索

Feb, 2023

具有对数最坏情况遗憾的量子强化学习的可证明高效探索

Provably Efficient Exploration in Quantum Reinforcement Learning with Logarithmic Worst-Case Regret

Han Zhong, Jiachen Hu, Yecheng Xue, Tongyang Li, Liwei Wang

TL;DR我们提出了一种新的量子强化学习算法，并证明了对于 tabular MDPs and linear mixture MDPs，该算法的最坏情况后悔度是多项式级别的，是量子 RL 在线探索具有可证明的对数最坏情况后悔度的第一项研究。

Abstract

While quantum reinforcement learning (RL) has attracted a surge of attention recently, its theoretical understanding is limited. In particular, it remains elusive how to design provably efficient quantum RL algorithms that can address the →

quantum reinforcement learning provably efficient algorithms exploration-exploitation trade-off tabular mdps linear function approximation

发现论文，激发创造

线性函数逼近强化学习的对数遗憾

该研究探讨了使用线性函数逼近的强化学习，提出了新的线性 MDP 假设，并通过实验证明了具有对最优行动价值函数的正增量的情况下可以获得对数后悔界限。

Nov, 2020

量子计算在情节式强化学习中提供指数级的遗憾改善

本文提出了基于量子上界置信区间（UCB）算法框架来解决具有量子 Oracle 的状态演化情况下的 MDP 有限时间尺度下的强化学习问题，并通过实验表明该算法框架较传统算法提高了性能。

Feb, 2023

强化学习的极小后悔界

本文研究了有限时间 MDPs 中探索的最优性问题，提出了一种基于值迭代的乐观算法，其探索奖励基于下一个状态的经验值的变化量，通过使用集中不等式提高算法的可伸缩性，取得了优于先前最佳算法的研究成果，可以实现与已知理论下限相匹配的后悔度。

Mar, 2017

零和游戏的对数遗憾量子学习算法

我们提出了首个在线量子算法，用于零和游戏，可以在 $\tilde O (1)$ 的时间内计算 $m \times n$ 矩阵零和游戏的 $\varepsilon$- 近似纳什均衡，与 $m$，$n$ 的经典算法相比，取得了二次的改进，同时实现了一个快速的量子线性规划求解器。

Apr, 2023

使用经验伯恩斯坦不等式的近乎最优乐观强化学习

本研究提出了一种基于方差置信区间的简单算法 UCRL-V，能够有效降低在未知有限通信 MDP 中的最优遗憾，并在多种环境下的实验证明 UCRL-V 算法优于现有算法。

May, 2019

有限时间跨度下连续时间线性二次强化学习的对数损失

研究连续时间线性二次调节强化学习问题，提出基于连续时间观测和控制的最小二乘算法和基于离散时间观测和分段常数控制的最小二乘算法，并分析了它们的误差界限和实现可能性。

Jun, 2020

使用 VB-FTRL 通过对数损失在线学习量子态

对于在线学习量子态的对数损失函数（LL-OLQS），我们推广了 VB-FTRL 算法，该算法在多项式时间内实现了次最佳实力并具有 O（d^2log（d + T））的遗憾率。同时我们引入了 VB - 凸性的概念，以促进推广。

Nov, 2023

使用对数遗憾值的 $Q$- 学习

该论文展示了第一个非渐近结果，证明了如果最优 $Q$- 函数存在严格正的次优性差，则无模型算法可以实现每段落的表格强化学习的对数累积后悔，并且我们将我们的分析扩展到折扣设置，并获得类似的对数累积后悔界限。

Jun, 2020

线性混合 Markov 决策过程的近最小极小化强化学习

本文研究了具有线性函数逼近的增强学习，其中马尔科夫决策过程（MDP）的潜在转移概率核心为线性混合模型，并且学习代理具有单个基础核函数的积分或采样神谕的访问。基于我们提出的新的 Bernstein 型自归一类化不等式，我们提出了一种名为 $ ext {UCRL-VTR}^{+}$ 的新的计算有效算法，以进行具有线性函数逼近的线性混合 MDPs 的无折扣情况。我们还提出了新的算法 $ ext {UCLK}^{+}$，适用于同一类 MDP 的折扣情况，这两种算法分别在最小化最大性上达到了近乎最小值，是线性函数逼近 RL 的第一篇计算有效性，近乎最小值的论文。

Dec, 2020

VO$Q$L: 非线性函数逼近下无模型强化学习的最优遗憾

该研究旨在通过引入新算法 VOQL，改进理论边界，并实现对线性 MDP 等函数类的回归任务进行计算上的高效且统计优化的可行性。

Dec, 2022