紧密下限优化的健壮贝叶斯强化学习

Jun, 2011

紧密下限优化的健壮贝叶斯强化学习

Robust Bayesian reinforcement learning through tight lower bounds

Christos Dimitrakakis

TL;DR本文提出贝叶斯强化学习中近似最优的无记忆策略，用以计算相关效用较紧的下界，使之得以应用于提高决策探索策略的鲁棒性。

Abstract

In the bayesian approach to sequential decision making, exact calculation of the (subjective) utility is intractable. This extends to most special cases of interest, such as →

发现论文，激发创造

基于方差的奖励函数用于近似贝叶斯强化学习

提出了一种基于后验概率分布的奖励加成方法，用于在Bayesian RL中解决探索与利用之间的困境，实现高效且有效的探索，能够利用结构化的先验知识，并证明其具有多项式样本复杂度。

Mar, 2012

贝叶斯强化学习：一项调查

本文深入探讨贝叶斯方法在强化学习中的作用，讨论了使用贝叶斯推理进行动作选择和利用先验知识等方面的优点，概述了在单步赌博机模型、模型基 RL 和模型无 RL 中贝叶斯方法的模型与方法，并全面评估了贝叶斯 RL 算法及其理论和实证性质。

Sep, 2016

强化学习的后验采样：最坏情况的遗憾界

提出了一种基于后验采样的算法，应用于具有有限但未知直径的Markov决策过程中，证明了近最优的最坏情况遗憾上界。这种方法通过证明Dirichlet分布的反集中性，可能具有独立研究价值，并将总奖励与最优无限时维度折扣的平均奖励策略的总期望奖励在时间结构 $T$ 中呈现出紧密的匹配。

May, 2017

逆强化学习的高效概率性能界限

本文提出了一种基于贝叶斯思想的采样方法，可用于确定在反向强化学习环境下实际高置信度策略性绩效界限，并演示如何利用该界限进行风险感知的策略选择和改进。

Jul, 2017

具有遗憾界限的变分贝叶斯强化学习

本文中，我们利用一种新的Bellman算子和相应的固定点，称为‘知识价值’，将期望未来回报和认知不确定性压缩成一个单一的值，从而实现了一种风险追求效用函数，并通过Boltzmann策略生成贝叶斯风险边界。

Jul, 2018

强化学习中的保守探索

本文介绍了在概率有限马尔可夫决策问题中引入保守探索的概念，并提出了两种乐观算法，以保证学习过程中不违反保守约束，这不会妨碍算法的学习能力，并给出了后悔界限。

Feb, 2020

有保证的受限强化学习中高效的探索：后验抽样即可

基于后验抽样的算法在约束马尔可夫决策过程（CMDP）的无限时间不折扣设置中提供了近最优的遗憾界限，同时在实证上比现有算法更具优势。

Sep, 2023

改进的贝叶斯后悔边界在强化学习中的应用

本研究证明了在多种环境设置下，Thompson采样在强化学习中的贝叶斯后悔限与性能上界，通过使用一组离散的替代环境简化学习问题，并使用后验一致性对信息比例进行了精细分析，从而导出了时间不均匀强化学习问题中的上界，其中$H$是回合长度，$d_{l_1}$是环境空间的Kolmogorov $l_1$维度。接着，我们在各种设置中找到了$d_{l_1}$的具体限制，并讨论了我们的结果是首次出现还是改进了现有技术。

Oct, 2023

先验依赖的函数逼近后验采样强化学习分析

利用线性混合马尔可夫决策过程模拟的函数逼近方法，本研究推进了强化学习中的随机探索。我们建立了关于函数逼近的依赖先验的贝叶斯遗憾界限，并对后验抽样强化学习的贝叶斯遗憾分析进行了改进，提出了一个上界为O(d√(H^3 T log T))的方法，其中d表示转移核的维度，H表示规划时间，T表示总交互次数。相对于线性混合马尔可夫决策过程的先前基准(Osband和Van Roy，2014)优化了O(√log T)因子，我们的方法采用了面向值的模型学习视角，引入解耦和方案和方差减少技术，超越了传统分析对置信区间和集中不等式的依赖，更有效地规范贝叶斯遗憾界限。

Mar, 2024

平均奖励约束下有效的强化学习探索：通过后验抽样实现接近最优的遗憾

基于后验抽样的新算法在无限时间视野下的有约束马尔科夫决策过程学习中实现了几乎最优的悔恨界限，并在实践中相比现有算法具有优势。

May, 2024