具有顺序最优遗憾界限的核化强化学习

Jun, 2023

具有顺序最优遗憾界限的核化强化学习

Kernelized Reinforcement Learning with Order Optimal Regret Bounds

Sattar Vakili, Julia Olkhovskaya

TL;DR针对使用核回归时的强化学习问题，我们提出了一种乐观性的改进最小二乘法值迭代方法，我们证明了其在一般情况下具有一阶最优遗憾保证，其结果比现有技术有显着的多项式改进。

Abstract

reinforcement learning (RL) has shown empirical success in various real world settings with complex models and large state-action spaces. The existing analytical results, however, typically focus on settings with a small number of state-actions or simple models such as linearly modeled

reinforcement learning kernel regression value iteration regret bounds rkhs

发现论文，激发创造

开放问题：基于核强化学习的次优遗憾界

强化学习在各种应用领域取得了很大的实证成果。本文探讨了强化学习在非线性函数逼近方面的理论问题，并提出了性能保证的挑战。

Jun, 2024

利用线性函数近似的强化学习的一阶遗憾：一种鲁棒估计方法

本研究基于鲁棒 Catoni 平均值估计器，提出一种新的鲁棒自归一化浓度界，解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题，并证明了在线性 MDP 设定下，可以获得与最优策略性能某种度量成比例的遗憾上界。

Dec, 2021

基于核的强化学习：有限时间分析

本文提出了一种基于核变量的乐观算法 Kernel-UCBVI，以及使用平滑核估计 MDP 奖励和转移的方法，以在探索和开发之间有效平衡，从而解决了有限时间内强化学习中的探索与开发困境。在连续 MDP 应用中，本文通过实验验证了该方法。

Apr, 2020

基于核的 Q-Learning 的样本复杂度

本文论述了基于核心回归的 Q 学习在存在生成模型时的采样复杂度，提出了一种非参数 Q 学习算法，其样本复杂度优化到 ε 和核心复杂度的阶数，这是针对这种普遍模型的首个具有有限样本复杂度的结果。

Feb, 2023

用最优后悔学习在度量空间中控制

探讨了针对具有任意状态和动作空间的有限时间确定性控制系统的在线强化学习问题，提出了一种基于上置信强化学习的 Q 函数的乐观估计算法，证明了算法的性能界限和下界。

May, 2019

高斯过程赌博机的最优顺序简单后悔

研究了高斯过程二元组和连续性优化问题之间的联系，建立了稳健分布，使用分步方式获得最终收敛结果并得到了一系列引理。

Aug, 2021

核化马尔科夫决策过程中的在线学习

研究了采用非参数高斯过程先验的 UCRL 和后验抽样算法的在线学习方法在未知的连续状态和动作的马尔可夫决策过程中最小化后悔的问题，在频率设置下，通过对核函数诱导的函数的再生核希尔伯特空间的真实 MDP 的转移和奖励函数的成员进行变异，研究了这些算法的后悔边界问题，并突出了转移和奖励函数对学习性能的影响。

May, 2018

线性马尔科夫决策过程的近最小值最大化强化学习

本文介绍了一种基于加权线性回归方案的计算有效算法，用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾，具有较好的效率，对参数化转换动态有良好的适应性，可以对研究领域进行更细致的探讨。

Dec, 2022

特征空间中的强化学习：矩阵赌博机、核函数和遗憾界

MatrixRL 是一种在线强化学习算法，可以通过学习概率转换模型的低维表示来缓解维度性的问题，同时可以平衡探索和开发之间的权衡。此算法具有接近于时间 $T$ 和维度 $d$（或 $ ilde {d}$）稳定性的可能性。

May, 2019

基于模型的强化学习与价值目标回归

本文研究基于模型的强化学习中的后悔最小化问题，提出一种基于乐观主义原则和线性混合模型的算法，并推导出一些后悔界的理论结果。

Jun, 2020