特征空间中的强化学习：矩阵赌博机、核函数和遗憾界

May, 2019

特征空间中的强化学习：矩阵赌博机、核函数和遗憾界

Reinforcement Learning in Feature Space: Matrix Bandit, Kernels, and Regret Bound

Lin F. Yang, Mengdi Wang

TL;DRMatrixRL 是一种在线强化学习算法，可以通过学习概率转换模型的低维表示来缓解维度性的问题，同时可以平衡探索和开发之间的权衡。此算法具有接近于时间 $T$ 和维度 $d$（或 $ ilde {d}$）稳定性的可能性。

Abstract

Exploration in reinforcement learning (RL) suffers from the curse of dimensionality when the state-action space is large. A common practice is to parameterize the high-dimensional value and policy functions using given features. However existing methods either have no theoretical guara

reinforcement learning low-dimensional representation online rl algorithm regret bound matrixrl

发现论文，激发创造

具有特征映射的折扣 MDP 的可证明高效强化学习

本论文介绍了一种基于特性映射的新算法，能够以线性的方式参数化转移核函数来处理强化学习中的大状态和行动空间，并且证明了该算法在一些强化学习的问题中，不需要访问生成模型就能取得多项式的最优后悔值，且总体上是近乎最优的。

Jun, 2020

基于核的强化学习：有限时间分析

本文提出了一种基于核变量的乐观算法 Kernel-UCBVI，以及使用平滑核估计 MDP 奖励和转移的方法，以在探索和开发之间有效平衡，从而解决了有限时间内强化学习中的探索与开发困境。在连续 MDP 应用中，本文通过实验验证了该方法。

Apr, 2020

具有顺序最优遗憾界限的核化强化学习

针对使用核回归时的强化学习问题，我们提出了一种乐观性的改进最小二乘法值迭代方法，我们证明了其在一般情况下具有一阶最优遗憾保证，其结果比现有技术有显着的多项式改进。

Jun, 2023

用最优后悔学习在度量空间中控制

探讨了针对具有任意状态和动作空间的有限时间确定性控制系统的在线强化学习问题，提出了一种基于上置信强化学习的 Q 函数的乐观估计算法，证明了算法的性能界限和下界。

May, 2019

高维稀疏线性赌博机

研究高维稀疏特征的随机线性臂模型中，在数据匮乏的情况下，特征向量遵守固定的探测分布，通过探索然后提交算法，得到了 $Ω(n^{2/3})$ 的无维度极小遗憾下界和 $Θ(n^{2/3})$ 的上界。

Nov, 2020

在线稀疏强化学习

在稀疏线性马尔可夫决策过程中，通过引入一种新的算法 - Lasso fitted Q-iteration，通过一个具有一定条件的数据策略，以几乎无维度代价实现对在线强化学习的降低，但线性后悔在常用政策情况下仍然无法避免。

Nov, 2020

利用线性函数近似的强化学习的一阶遗憾：一种鲁棒估计方法

本研究基于鲁棒 Catoni 平均值估计器，提出一种新的鲁棒自归一化浓度界，解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题，并证明了在线性 MDP 设定下，可以获得与最优策略性能某种度量成比例的遗憾上界。

Dec, 2021

基于模型的强化学习和逃避维度

本文研究学习优化未知马尔可夫决策过程问题，并通过参数化已知函数类来获得标度为系统维度而非基数的遗憾界，并提出了一种简单而计算高效的后验采样算法（PSRL）来满足这些界。

Jun, 2014

核和神经赌博中的纯探索

本文研究了一种新的纯探索选择策略，通过自适应地将每个手臂的特征表示嵌入到低维空间中并仔细处理引起的模型错误，成果展示了该方法在核空间或神经表示中实现的有效维度。实验证明了该方法的有效性。

Jun, 2021

核化马尔科夫决策过程中的在线学习

研究了采用非参数高斯过程先验的 UCRL 和后验抽样算法的在线学习方法在未知的连续状态和动作的马尔可夫决策过程中最小化后悔的问题，在频率设置下，通过对核函数诱导的函数的再生核希尔伯特空间的真实 MDP 的转移和奖励函数的成员进行变异，研究了这些算法的后悔边界问题，并突出了转移和奖励函数对学习性能的影响。

May, 2018