开放问题：基于核强化学习的次优遗憾界

Jun, 2024

开放问题：基于核强化学习的次优遗憾界

Open Problem: Order Optimal Regret Bounds for Kernel-Based Reinforcement Learning

Sattar Vakili

TL;DR强化学习在各种应用领域取得了很大的实证成果。本文探讨了强化学习在非线性函数逼近方面的理论问题，并提出了性能保证的挑战。

Abstract

reinforcement learning (RL) has shown great empirical success in various application domains. The theoretical aspects of the problem have been extensively studied over past decades, particularly under tabular and linear Markov Decision Process structures. Recently, →

发现论文，激发创造

基于核的强化学习实践

本文介绍了一种将KBRL转化为实用强化学习工具的算法：基于核的随机分解（KBSF）。KBSF利用一种简单的思路将KBRL模型中的信息压缩为固定大小的模型，从而实现线性的计算时间复杂度并且可以在离线和在线环境中应用于大规模问题。

Jul, 2014

核化马尔科夫决策过程中的在线学习

研究了采用非参数高斯过程先验的UCRL和后验抽样算法的在线学习方法在未知的连续状态和动作的马尔可夫决策过程中最小化后悔的问题，在频率设置下，通过对核函数诱导的函数的再生核希尔伯特空间的真实MDP的转移和奖励函数的成员进行变异，研究了这些算法的后悔边界问题，并突出了转移和奖励函数对学习性能的影响。

May, 2018

特征空间中的强化学习：矩阵赌博机、核函数和遗憾界

MatrixRL是一种在线强化学习算法，可以通过学习概率转换模型的低维表示来缓解维度性的问题，同时可以平衡探索和开发之间的权衡。此算法具有接近于时间$T$和维度$d$（或$ ilde{d}$）稳定性的可能性。

May, 2019

基于模型的强化学习中贪心策略的严格遗憾界

本文聚焦在有限状态有限时间的马尔科夫决策过程设置下的模型基RL，证明了探索具有贪心策略可以实现紧密的极小极大性能，从而完全避免使用full-planning，而复杂度降为S，并通过实时动态规划进行了新颖的分析。

May, 2019

基于核的强化学习：有限时间分析

本文提出了一种基于核变量的乐观算法Kernel-UCBVI，以及使用平滑核估计MDP奖励和转移的方法，以在探索和开发之间有效平衡，从而解决了有限时间内强化学习中的探索与开发困境。在连续MDP应用中，本文通过实验验证了该方法。

Apr, 2020

线性函数逼近强化学习的对数遗憾

该研究探讨了使用线性函数逼近的强化学习，提出了新的线性MDP假设，并通过实验证明了具有对最优行动价值函数的正增量的情况下可以获得对数后悔界限。

Nov, 2020

利用线性函数近似的强化学习的一阶遗憾：一种鲁棒估计方法

本研究基于鲁棒Catoni平均值估计器，提出一种新的鲁棒自归一化浓度界，解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题，并证明了在线性MDP设定下，可以获得与最优策略性能某种度量成比例的遗憾上界。

Dec, 2021

具有顺序最优遗憾界限的核化强化学习

针对使用核回归时的强化学习问题，我们提出了一种乐观性的改进最小二乘法值迭代方法，我们证明了其在一般情况下具有一阶最优遗憾保证，其结果比现有技术有显着的多项式改进。

Jun, 2023

强化学习中的全局自由和实例相关固定函数逼近的遗憾界限

通过提出UCRL-WVTR算法，解决强化学习中长期规划问题；该算法实现了无视时间限制和依赖实例的特点，且具有计算效率；算法设计和细致分析基于函数近似，达到了无时间限制、依赖实例和尖锐后悔界限的目标；理论研究得到了大量的实验验证。

Dec, 2023

约束强化学习的平均奖励目标：基于模型和无模型算法

在这份研究论文中，通过系统研究了强化学习（Reinforcement Learning）在约束条件下的模型方法和无模型方法，着重分析了平均奖励随机决策过程中乐观和后验取样的基础方法以及参数化模型无关方法，同时在解决约束决策过程中提供遗憾保证和约束违规分析。同时，还探讨了在弱通信随机决策过程中的结果，扩大了研究结果的适用范围。

Jun, 2024