研究使用线性函数近似的强化学习,其中转移概率和奖励函数是关于特征映射 phi (s,a) 的线性函数。提出了新的计算高效算法 LSVI-UCB+,其在 Bernstein 类型的探索奖励的帮助下,具有常数估计的 L2 误差,并且特别适用于情节不同整体线性马尔可夫决策过程,证明了 LSVI-UCB + 的统计结果并且在理论上是最优秀的。
Jun, 2022
发展第一个无需模拟器的模型自由算法,它在大型系统中实现次线性遗憾和次线性约束违规,并且仅通过特征映射的维度依赖于状态空间。这是通过在标准 LSVI-UCB 算法中引入原始 - 对偶优化和用软最大策略替换标准贪婪选择来实现的。
本文研究了在损失函数任意的情况下,对于线性近似的 Q 函数,提出了两种算法,可以在拥有模拟器的情况下使得损失最小值达到 $\tilde {\mathcal O}(\sqrt K)$,并在无模拟器情况下实现了 $ ilde {\mathcal O}(K^{8/9})$ 的表现,改进了之前的表现
Jan, 2023
本研究基于鲁棒 Catoni 平均值估计器,提出一种新的鲁棒自归一化浓度界,解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题,并证明了在线性 MDP 设定下,可以获得与最优策略性能某种度量成比例的遗憾上界。
Dec, 2021
该研究旨在通过引入新算法 VOQL,改进理论边界,并实现对线性 MDP 等函数类的回归任务进行计算上的高效且统计优化的可行性。
Dec, 2022
研究连续时间线性二次调节强化学习问题,提出基于连续时间观测和控制的最小二乘算法和基于离散时间观测和分段常数控制的最小二乘算法,并分析了它们的误差界限和实现可能性。
Jun, 2020
本文提出了第一个在基于线性动态和线性奖励时,具有多项式运行时间和样本复杂度的可证明的强化学习算法,该算法可以在不需要模拟器或其他假设的情况下实现,具有快速速度且与状态和动作数量无关。
Jul, 2019
我们提出了一种新的量子强化学习算法,并证明了对于 tabular MDPs and linear mixture MDPs,该算法的最坏情况后悔度是多项式级别的,是量子 RL 在线探索具有可证明的对数最坏情况后悔度的第一项研究。
Feb, 2023
本文研究了具有线性函数逼近的增强学习,其中马尔科夫决策过程(MDP)的潜在转移概率核心为线性混合模型,并且学习代理具有单个基础核函数的积分或采样神谕的访问。 基于我们提出的新的 Bernstein 型自归一类化不等式,我们提出了一种名为 $ ext {UCRL-VTR}^{+}$ 的新的计算有效算法,以进行具有线性函数逼近的线性混合 MDPs 的无折扣情况。 我们还提出了新的算法 $ ext {UCLK}^{+}$,适用于同一类 MDP 的折扣情况,这两种算法分别在最小化最大性上达到了近乎最小值,是线性函数逼近 RL 的第一篇计算有效性,近乎最小值的论文。
Dec, 2020
本文介绍了一种基于加权线性回归方案的计算有效算法,用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾,具有较好的效率,对参数化转换动态有良好的适应性,可以对研究领域进行更细致的探讨。