使用贝叶斯方法学习马尔可夫决策过程中的 Bandit 结构

Jul, 2022

A Bayesian Approach to Learning Bandit Structure in Markov Decision Processes

Kelly W. Zhang, Omer Gottesman, Finale Doshi-Velez

TL;DR研究了强化学习中决策问题的环境类型不确定性问题，提出了一种基于贝叶斯假设检验方法的在线算法，可以在上下文探索和马尔科夫过程决策算法之间互相转换来适应环境类型，以避免不合适的环境假设引起的低效问题。

Abstract

In the reinforcement learning literature, there are many algorithms developed for either contextual bandit (CB) or markov decision processes

发现论文，激发创造

本文研究通过强化学习算法让智能体在不确定性情况下进行最优决策。作者比较了常见的上下文决策框架和马尔可夫决策过程，并发现使用近期提出的针对马尔可夫决策过程的强化学习算法会在使用上下文决策框架的情况下获得最佳的表现。

Nov, 2019

本文提出了一种基于 MDP 与 Bandits 的 Thompson 采样算法及其在推荐场景中的应用，旨在解决线性流程中的循环决策问题，该算法在模拟实验中表现出色，特别是在跨页相互依赖变化大的情况下，表现最为鲁棒。

Jul, 2021

基于贝叶斯学习和汤普森抽样的上下文多臂赌博机在线强化学习方法可以高效建模复杂的上下文相关和非固定的公共卫生干预项目中的资源分配，具有较高的性能表现。

Feb, 2024

本研究提出一种用于强化学习中的贝叶斯风险 MDP 问题的解决方法，旨在平衡鲁棒性和保守性。研究通过采用后验贝叶斯来估计转移模型，结合风险功能来控制模型的不确定性，并开发了多级贝叶斯风险敏感的 Q-learning 算法来解决问题。

May, 2023

该研究提出了适用于预测状态表示（PSRs）的首个 UCB（Upper Confidence Bound）方法，具有计算效率、接近最优策略的最后迭代保证以及保证模型准确性等特点。

Jul, 2023

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

使用前向搜索稀疏采样算法（FSSS）可以实现接近 Bayes 最优行为，从而使用 Monte-Carlo 树搜索算法有效地处理状态空间极大或无限大的马尔可夫决策过程（MDPs）。

Feb, 2012

本文提出了一种高效的在线决策算法 MarcoPolo，用于处理具有确定性状态转移动态、对抗生成的奖励和旁观者反馈模型的 Markov 决策过程，并证明该算法满足 O (T^(3/4) sqrt (log (T))) 的遗憾边界。

Oct, 2012

本文提出一种基于模型的 Bayesian 强化学习框架，采用因式表示和在线规划技术来提高可扩展性，结合学习动态系统结构和参数，同时制定（近）最优动作序列。

Jun, 2012

本文基于组合多臂赌博机，考虑了测试成本，提供了一种新的成本高效的在线决策框架，并通过后验抽样或 BayesUCB 进行探索。我们对该框架进行了严格的理论分析，并提供了多个实验结果，证明了它在实际问题中的适用性。

Aug, 2023