带有侧面信息的 MDPs 在线学习

Jun, 2014

Online learning in MDPs with side information

Yasin Abbasi-Yadkori, Gergely Neu

TL;DR本文提出了一种在线学习算法，使用有限马尔可夫决策过程解决了具有临床试验和推荐系统的应用方案的问题，该算法可以在计算效率上得到提升，并且在此设置下的后悔度最多为 O (√T)。

Abstract

We study online learning of finite markov decision process (MDP) problems when a side information vector is available. The problem is moti

online learning markov decision process side information episodic structure regret bound

发现论文，激发创造

对抗性马尔科夫决策过程中的在线凸优化

本文研究了在线学习在没有循环的马尔可夫决策过程中的应用，提出了基于熵正则化方法实现的在线算法并给出了 $\tilde {O}(L|X|\sqrt {|A|T})$ 的遗憾界，通过处理凸性能标准并改进之前的遗憾界，扩展了对抗性 MDP 模型，并可以更好地处理单个 episode 的损失。

May, 2019

具有延迟反馈的对抗性马尔可夫决策过程学习

本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习，表现出基于策略优化的新算法，在完全信息反馈下实现了接近最优的高概率后悔情况，同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。

Dec, 2020

具有连续侧信息的马尔可夫决策过程

本文提出了一种基于上下文的马尔可夫决策过程增强学习算法，用于医疗保健中的治疗决策。算法基于平滑性假设进行学习，并给出了 PAC 边界。在上下文可线性组合的情况下，基于 KWIK 学习技术，我们提供了一个 PAC 学习算法。

Nov, 2017

马尔科夫决策过程中基于对手选择转移概率分布的在线学习

研究了在转换概率分布和损失函数是对手选择并随时间变化时，如何学习具有有限状态和动作空间的马尔可夫决策过程问题。介绍了一种算法，如果转换概率满足均匀混合条件，则任何比较类中的策略的后悔增长为比赛轮数的平方根。只要比较类是多项式级别且我们可以为每个策略计算样本路径的期望值，我们的方法就是有效的。对于一般情况的后悔小的高效算法仍然是一个开放的问题。

Mar, 2013

潜在马尔可夫决策过程的前瞻性侧信息

在许多交互决策的场景中存在着潜在且未被观察到的固定信息。本文研究了拥有潜在上下文信息的潜在马尔可夫决策过程（LMDP）类的问题，证明了任何具有样本高效算法的算法必须至少具有 Ω(K^(2/3)) 的后悔，提出了一个具有匹配上限的算法。

Oct, 2023

核化马尔科夫决策过程中的在线学习

研究了采用非参数高斯过程先验的 UCRL 和后验抽样算法的在线学习方法在未知的连续状态和动作的马尔可夫决策过程中最小化后悔的问题，在频率设置下，通过对核函数诱导的函数的再生核希尔伯特空间的真实 MDP 的转移和奖励函数的成员进行变异，研究了这些算法的后悔边界问题，并突出了转移和奖励函数对学习性能的影响。

May, 2018

高斯回报与侧面观测的在线学习

本文考虑了一个带有高斯回报和信息反馈的序贯学习问题，并提供了非渐近的问题相关下界和算法来实现这些下界。

Oct, 2015

在线稀疏强化学习

在稀疏线性马尔可夫决策过程中，通过引入一种新的算法 - Lasso fitted Q-iteration，通过一个具有一定条件的数据策略，以几乎无维度代价实现对在线强化学习的降低，但线性后悔在常用政策情况下仍然无法避免。

Nov, 2020

无穷时间 MDP 的离线数据高效在线学习：一种贝叶斯方法

本文研究了在线强化学习问题在无限时间段环境中的高效解决方法，其中假设有一个离线数据集作为起点，由一个未知能力水平的专家生成，我们展示了如果学习代理建模了专家使用的行为策略，它可以在最小化累计遗憾方面表现得更好，我们建立了一个前瞻性依赖先验的遗憾界限，提出了近似的被告知 RLSVI 算法，可以解释为使用离线数据集进行模仿学习，然后进行在线学习。

Oct, 2023

马尔科夫决策过程的差分隐私遗憾最小化

研究有限时段表格马尔可夫决策过程（MDPs）中的遗憾最小化问题，在差分隐私（DP）约束条件下，提出两种 DP 变体的通用框架 -- 集中式 DP（JDP）和本地 DP（LDP）-- 以设计带有隐私机制的强化学习算法，其中 JDP 的隐私代价仅为下限加项，而 LDP 的代价则是乘法项。同时获得次线性的遗憾保证，并提出了该分析的统一方法。

Dec, 2021