面向因式化马尔可夫决策过程的极小极大最优强化学习

Jun, 2020

面向因式化马尔可夫决策过程的极小极大最优强化学习

Towards Minimax Optimal Reinforcement Learning in Factored Markov Decision Processes

Yi Tian, Jian Qian, Suvrit Sra

TL;DR本文研究了在 FMDP 中使用最小最大算法的强化学习，提出了两种基于模型的算法，并通过结构相关的阈值证明了其保证。

Abstract

We study minimax optimal reinforcement learning in episodic factored Markov decision processes (FMDPs), which are MDPs with conditionally independent transition components. Assuming the factorization is known, we

reinforcement learning markov decision processes optimization factorization exploration

发现论文，激发创造

未知结构分解 MDP 中的 Oracle 高效遗憾最小化

本研究旨在通过基于乐观面对不确定性原则的算法，结合一种简单的统计方法来实现在学习 FMDP 结构的同时最小化后悔，证明了一个新的已知结构情况下处理的下界，并提出了一种变体算法，即使在现有近似规划器只限于非分解动作的情况下，仍然保持有效。

Sep, 2020

线性马尔科夫决策过程的近最小值最大化强化学习

本文介绍了一种基于加权线性回归方案的计算有效算法，用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾，具有较好的效率，对参数化转换动态有良好的适应性，可以对研究领域进行更细致的探讨。

Dec, 2022

分解马尔可夫决策过程中近最优强化学习

通过采用 posterior sampling reinforcement learning (PSRL) 算法和 upper confidence bound algorithm (UCRL-Factored) 算法，在已知为 factored MDP 系统中，可将 regret 值多项式缩小到编码所需的 factored MDP 参数数量级别，从而大大减少了学习时间。

Mar, 2014

基于因子的 MDP 高效解算算法

本文提出了两种近似解决因子化马尔可夫决策过程的算法，利用基函数表示近似值函数，其中每个基函数仅涉及一个小的子集，使用类似于变量消除的线性规划分解技术将指数级的 LP 规模缩小到多项式级别。我们的动态规划算法使用 max-norm 近似技术，对于超过 10^40 个状态的问题，我们的算法展示了有希望的可扩展性，并将其与现有的最新技术方法进行了比较，在某些问题上计算时间得到了指数级的提升。

Jun, 2011

具有延迟反馈的对抗性马尔可夫决策过程学习

本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习，表现出基于策略优化的新算法，在完全信息反馈下实现了接近最优的高概率后悔情况，同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。

Dec, 2020

提高分解平均奖励 MDP 的探索能力

研究了在未知的分解式马尔可夫决策过程（FMDP）中，以平均奖励标准为基础的遗憾最小化任务。提出了一种新的遗憾最小化策略 DBN-UCRL，该策略依赖于对转换函数的单独元素定义的 Bernstein 类型置信区间，并在标准环境下进行了数值实验。

Sep, 2020

通过强化学习扩展鲁棒的马尔可夫决策过程

本文研究了面临参数不确定性的大规模马尔可夫决策过程（MDP），并基于鲁棒 MDP 范式，应用增强学习方法解决了规模巨大且无法使用动态规划技术的实际问题解决方法。该方法在特定技术条件下被证明可以成功，通过对期权定价问题的模拟的证明其有效性，是首次尝试扩大鲁棒 MDPs 范式的尝试。

Jun, 2013

马尔科夫决策过程的差分隐私遗憾最小化

研究有限时段表格马尔可夫决策过程（MDPs）中的遗憾最小化问题，在差分隐私（DP）约束条件下，提出两种 DP 变体的通用框架 -- 集中式 DP（JDP）和本地 DP（LDP）-- 以设计带有隐私机制的强化学习算法，其中 JDP 的隐私代价仅为下限加项，而 LDP 的代价则是乘法项。同时获得次线性的遗憾保证，并提出了该分析的统一方法。

Dec, 2021

无模型强化学习中的无限时域平均奖赏马尔可夫决策过程

本文提出两种基于无模型的强化学习算法，用于学习无限时间持续的平均回报 MDP 问题，第一种算法在弱相互通信的 MDPs 中，将问题简化为折扣回报问题，在 T 步之后的遗憾为 O (T^(2/3)), 该算法是解决该问题的第一种无模型的算法；第二种算法利用了对抗多臂老虎机自适应算法的最新进展，将遗憾进一步改进至 O (sqrt (T))，但需要更强的符合人类定义的遍历条件。这个结果取代了 Abbasi-Yadkori 等人 2019 年只有在符合人类定义的遍历条件下的 ergodic MDP 才能达到 O (T^(3/4)) 的遗憾。

Oct, 2019

利用强化学习在多智能体马尔科夫决策过程中实现公平

本文提出了一种基于强化学习和在线凸优化的方法来实现多智能体系统中的公平性，在保证植树的情况下为不同智能体提供公平奖励。该方法能够在未知环境中实现公平，并在实验中得到了验证。

Jun, 2023