紧密下限优化的健壮贝叶斯强化学习
提出了一种基于后验概率分布的奖励加成方法,用于在Bayesian RL中解决探索与利用之间的困境,实现高效且有效的探索,能够利用结构化的先验知识,并证明其具有多项式样本复杂度。
Mar, 2012
本文深入探讨贝叶斯方法在强化学习中的作用,讨论了使用贝叶斯推理进行动作选择和利用先验知识等方面的优点,概述了在单步赌博机模型、模型基 RL 和模型无 RL 中贝叶斯方法的模型与方法,并全面评估了贝叶斯 RL 算法及其理论和实证性质。
Sep, 2016
提出了一种基于后验采样的算法,应用于具有有限但未知直径的Markov决策过程中,证明了近最优的最坏情况遗憾上界。这种方法通过证明Dirichlet分布的反集中性,可能具有独立研究价值,并将总奖励与最优无限时维度折扣的平均奖励策略的总期望奖励在时间结构 $T$ 中呈现出紧密的匹配。
May, 2017
本文中,我们利用一种新的Bellman算子和相应的固定点,称为‘知识价值’,将期望未来回报和认知不确定性压缩成一个单一的值,从而实现了一种风险追求效用函数,并通过Boltzmann策略生成贝叶斯风险边界。
Jul, 2018
本研究证明了在多种环境设置下,Thompson采样在强化学习中的贝叶斯后悔限与性能上界,通过使用一组离散的替代环境简化学习问题,并使用后验一致性对信息比例进行了精细分析,从而导出了时间不均匀强化学习问题中的上界,其中$H$是回合长度,$d_{l_1}$是环境空间的Kolmogorov $l_1$维度。接着,我们在各种设置中找到了$d_{l_1}$的具体限制,并讨论了我们的结果是首次出现还是改进了现有技术。
Oct, 2023
利用线性混合马尔可夫决策过程模拟的函数逼近方法,本研究推进了强化学习中的随机探索。我们建立了关于函数逼近的依赖先验的贝叶斯遗憾界限,并对后验抽样强化学习的贝叶斯遗憾分析进行了改进,提出了一个上界为O(d√(H^3 T log T))的方法,其中d表示转移核的维度,H表示规划时间,T表示总交互次数。相对于线性混合马尔可夫决策过程的先前基准(Osband和Van Roy,2014)优化了O(√log T)因子,我们的方法采用了面向值的模型学习视角,引入解耦和方案和方差减少技术,超越了传统分析对置信区间和集中不等式的依赖,更有效地规范贝叶斯遗憾界限。
Mar, 2024
基于后验抽样的新算法在无限时间视野下的有约束马尔科夫决策过程学习中实现了几乎最优的悔恨界限,并在实践中相比现有算法具有优势。
May, 2024