可识别 MDP 赌博结构的问题相关性强化学习界限

Nov, 2019

可识别 MDP 赌博结构的问题相关性强化学习界限

Problem Dependent Reinforcement Learning Bounds Which Can Identify Bandit Structure in MDPs

Andrea Zanette, Emma Brunskill

TL;DR本文研究通过强化学习算法让智能体在不确定性情况下进行最优决策。作者比较了常见的上下文决策框架和马尔可夫决策过程，并发现使用近期提出的针对马尔可夫决策过程的强化学习算法会在使用上下文决策框架的情况下获得最佳的表现。

Abstract

In order to make good decision under uncertainty an agent must learn from observations. To do so, two of the most common frameworks are Contextual Bandits and markov decision processes (MDPs). In this paper, we s

uncertainty learning contextual bandits markov decision processes reinforcement learning

发现论文，激发创造

使用贝叶斯方法学习马尔可夫决策过程中的 Bandit 结构

研究了强化学习中决策问题的环境类型不确定性问题，提出了一种基于贝叶斯假设检验方法的在线算法，可以在上下文探索和马尔科夫过程决策算法之间互相转换来适应环境类型，以避免不合适的环境假设引起的低效问题。

Jul, 2022

使用值函数界限在没有领域知识的情况下加强强化学习的问题相关遗憾范围

该研究针对有限时间段的离散马尔科夫决策问题，提出了一种算法并分析了其性能上限，得出了最先进的范围和如果环境规范小则更紧的限制，其不需要先前对应环境规范的知识，能解决经验学习中常常遇到的限制问题。

Jan, 2019

基于无界时间跨度和方差的隐含马尔可夫决策过程强化学习

本文研究基于后知的上下文中的潜在马尔可夫决策过程（LMDPs）的强化学习中的遗憾最小化问题，设计了一种新的基于模型的算法框架，证明了具有一定时间复杂度的遗憾上限。

Oct, 2022

基于不同实例的情境臂和强化学习复杂度：一种基于反对的视角

该研究提出了一种用于上下文 Bandit 问题的复杂度度量方法，展示了其与最优实例相关遗憾的关系，并给出了新的算法来实现当存在一个最优选择时能够分辨性地进行探索。同时，该研究还在采用函数近似的强化学习问题上提出了新的算法，达到了优化的样本规模。

Oct, 2020

分解马尔可夫决策过程中近最优强化学习

通过采用 posterior sampling reinforcement learning (PSRL) 算法和 upper confidence bound algorithm (UCRL-Factored) 算法，在已知为 factored MDP 系统中，可将 regret 值多项式缩小到编码所需的 factored MDP 参数数量级别，从而大大减少了学习时间。

Mar, 2014

使用贝叶斯机器人反馈和未知转移学习对抗性 MDP

本文提出了一种有效的算法，解决了具有未知转移函数、bandit 反馈和对抗损失的纪念有限时间段马尔可夫决策过程的学习问题，该算法能够以高概率实现 $\mathcal {\tilde {O}}(L|X|\sqrt {|A|T})$ 的后悔，其中 $L$ 为时间段，$|X|$ 为状态数，$|A|$ 为动作数，而 $T$ 为剧集数。

Dec, 2019

具有层次信息结构的去中心化协作强化学习

本文提出了一种简单有效的分层信息结构用于多智能体强化学习中的多臂赌博机和马尔可夫决策过程问题，以求克服智能体间的信息不对称带来的挑战，并给出了相应的近似最优的遗憾界。

Nov, 2021

MDP 中无折扣强化学习的方差感知遗憾界

本研究考虑了在未知的离散马尔科夫决策过程下，使用平均奖励准则的强化学习问题，其中学习者从一个初始状态开始，通过单个观察流与系统进行交互。我们提供了 KL-UCRL 算法的新分析，为该算法建立了高概率遗憾界，对于同一类随机过程的效果较之前的算法遗憾界有数量级的提升。

Mar, 2018

带有对抗奖励和赌徒反馈的确定性马尔可夫决策过程

本文提出了一种高效的在线决策算法 MarcoPolo，用于处理具有确定性状态转移动态、对抗生成的奖励和旁观者反馈模型的 Markov 决策过程，并证明该算法满足 O (T^(3/4) sqrt (log (T))) 的遗憾边界。

Oct, 2012

强化学习的变分遗憾界

该研究针对马尔可夫决策过程中的无折扣强化学习问题提出了一种算法，并提供了针对最优非静态策略的性能保证。给出了在 MDP 总变差方面的差错的上限，这是一般强化学习设置的第一个变分差错界限。

May, 2019