基于核的强化学习实践

Jul, 2014

Practical Kernel-Based Reinforcement Learning

André M. S. Barreto, Doina Precup, Joelle Pineau

TL;DR本文介绍了一种将KBRL转化为实用强化学习工具的算法：基于核的随机分解（KBSF）。KBSF利用一种简单的思路将KBRL模型中的信息压缩为固定大小的模型，从而实现线性的计算时间复杂度并且可以在离线和在线环境中应用于大规模问题。

Abstract

kernel-based reinforcement learning (kbrl) stands out among reinforcement learning algorithms for its strong theoretical guarantees. By casting the learning problem as a local kernel approximation, →

发现论文，激发创造

核化马尔科夫决策过程中的在线学习

研究了采用非参数高斯过程先验的UCRL和后验抽样算法的在线学习方法在未知的连续状态和动作的马尔可夫决策过程中最小化后悔的问题，在频率设置下，通过对核函数诱导的函数的再生核希尔伯特空间的真实MDP的转移和奖励函数的成员进行变异，研究了这些算法的后悔边界问题，并突出了转移和奖励函数对学习性能的影响。

May, 2018

特征空间中的强化学习：矩阵赌博机、核函数和遗憾界

MatrixRL是一种在线强化学习算法，可以通过学习概率转换模型的低维表示来缓解维度性的问题，同时可以平衡探索和开发之间的权衡。此算法具有接近于时间$T$和维度$d$（或$ ilde{d}$）稳定性的可能性。

May, 2019

基于核的强化学习：有限时间分析

本文提出了一种基于核变量的乐观算法Kernel-UCBVI，以及使用平滑核估计MDP奖励和转移的方法，以在探索和开发之间有效平衡，从而解决了有限时间内强化学习中的探索与开发困境。在连续MDP应用中，本文通过实验验证了该方法。

Apr, 2020

基于模型的强化学习的博弈论框架

本文提出了一种新的框架，将基于模型的强化学习（MBRL）视为博弈，通过构建领导者与跟随者之间的Stackelberg博弈来简化算法设计，并设计了两种自然算法家族，旨在促进样本效率。

Apr, 2020

核密度贝叶斯逆强化学习

介绍了一种使用基于条件核密度估计的贝叶斯逆转奖励学习（KD-BIRL）的算法，该算法能更有效地近似似然函数和应用于具有复杂和无限状态空间的环境，并在Gridworld环境和虚拟sepsis治疗任务中展示了其优势。

Mar, 2023

Koopman核回归

该研究提出了一种基于Koopman算子理论的新型重现核希尔伯特空间(RKHS)，称为Koopman Kernel Regression (KKR)，可以提高预测的准确性和泛化能力，对于以Koopman为基础的预测器，最新的统计学习方法存在限制，所以提供比现有研究更为详尽的证明和更宽松的假设。

May, 2023

具有顺序最优遗憾界限的核化强化学习

针对使用核回归时的强化学习问题，我们提出了一种乐观性的改进最小二乘法值迭代方法，我们证明了其在一般情况下具有一阶最优遗憾保证，其结果比现有技术有显着的多项式改进。

Jun, 2023

连续状态环境中的条件核模仿学习

我们提出了一种基于马尔科夫平衡方程和条件核密度估计的模仿学习框架，通过估计环境的转移动力学和满足环境的概率平衡方程来解决连续状态空间环境中的模仿学习问题，并在连续状态基准环境的一系列数值实验中展示了优于许多最先进的模仿学习算法的实证表现。

Aug, 2023

开放问题：基于核强化学习的次优遗憾界

强化学习在各种应用领域取得了很大的实证成果。本文探讨了强化学习在非线性函数逼近方面的理论问题，并提出了性能保证的挑战。

Jun, 2024

通过核函数逼近利用无标签数据共享在离线强化学习中的应用

本研究解决了离线强化学习中标签数据成本高昂的问题，提出了一种利用无标签数据的方法。论文中介绍的算法基于核函数逼近，并提供了理论保证，展现了在标签数据有限时有效利用无标签数据的潜力，可能显著提升离线强化学习的效率。

Aug, 2024