使用状态和动作特征实现可扩展的双线性 $π$ 学习

Apr, 2018

使用状态和动作特征实现可扩展的双线性 $π$ 学习

Scalable Bilinear $π$ Learning Using State and Action Features

Yichen Chen, Lihong Li, Mengdi Wang

TL;DR本文介绍了一种基于 Approximate linear programming (APL) 的算法 ——bilinear pi learning，在采样 oracle 下用于强化学习，并证明了它具有可扩展性、在线实时性和样本效率等多种优势。

Abstract

approximate linear programming (ALP) represents one of the major algorithmic families to solve large-scale markov decision processes (MDP). In this work, we study a primal-dual formulation of the ALP, and develop

approximate linear programming markov decision processes reinforcement learning bilinear pi learning sample efficiency

发现论文，激发创造

原始 - 对偶 π 学习：对遍历式马尔可夫决策问题的样本复杂度和亚线性运行时间

本文提出了一种基于 Primal-Dual π Learning 的方法，利用线性对偶性更新价值与策略向量以逼近无穷时间和折扣因子为 1 的马尔可夫决策过程的最优策略，并给出了复杂度上界，并且这种方法还能应用于有限状态、有限动作空间以及随机转移概率模型下的计算问题，当情况许可下，此方法可以在次线性时间内解决平均奖励最大化的问题。

Oct, 2017

使用线性可加特征的参数 Q 学习的样本最优解

该研究提出一种基于特征维度的参数 Q 学习算法，通过使用方差约减、单调性保持和置信区间等技术提高了其样本效率，并证明了该算法在任意初始状态下可以以高概率找到一个 ε- 最优的策略，适用于大规模的马尔可夫决策过程。

Feb, 2019

随机线性规划以几乎线性（有时是亚线性）的运行时间解决折扣马尔科夫决策问题

提出一种新的随机线性规划算法，利用价值 - 策略对偶和二叉树数据结构，自适应地采样状态 - 动作 - 状态转移，并进行指数原始 - 对偶更新，从而以几乎线性的运行时间在最坏情况下找到一个 ε- 最优策略。当马尔可夫决策过程是遍历的并且以某些特殊的数据格式指定时，该算法使用线性的运行时间，在状态 - 动作对的总数中是次线性的，为解决随机动态规划问题提供了新的途径和复杂性基准。

Apr, 2017

稀疏线性 MDP 中的探索和学习，无需计算难解的预测器

线性马尔科夫决策过程（MDP）中的特征选择和零稀疏线性 MDP，以及通过凸规划有效计算的模拟器、低深度决策树上的区块 MDP 的学习算法。

Sep, 2023

使用混合状态和动作变量解决分解的马尔可夫决策过程

本文介绍了一种可对连续和离散变量的大决策问题进行紧凑表示的混合分解 Markov 决策过程（MDP）模型和一种新的混合近似线性规划（HALP）框架，HALP 的核心思想是通过一组基函数的线性组合来近似最优价值函数，并通过线性规划来优化其权重，并证明其在多种混合优化问题中的可扩展潜力。

Sep, 2011

在线线性 $ q^π $ 可实现 MDPs 中的 RL 与线性 MDPs 一样简单，只要你学会忽略什么

在线强化学习中的线性可实现的马尔可夫决策过程 (MDP)，提出了一种计算效率较低的学习算法，通过跳过特定状态转化为线性 MDP，并证明了该算法在这种情况下具有多项式样本复杂度。

Oct, 2023

大规模马尔可夫决策问题的线性规划

本文考虑了控制具有大状态空间的马尔可夫决策过程以最小化平均成本的问题，并使用线性规划和两种方法，即基于随机凸优化和基于约束采样的方法，将性能提高到与在低维策略类中的任何策略相比的最佳水平。

Feb, 2014

使用线性函数逼近实现高效的本地规划

研究使用线性函数逼近和模拟器的查询和计算高效的计划算法，在这种情况下，我们提出了名为 “Confident MC-LSPI” 和 “Confident MC-Politex” 的两种算法，同时证明了我们的算法在特征，有效规划控制范围和目标次优性的维度中具有多项查询和计算成本，而这些成本与状态空间的大小无关。

Aug, 2021

通过线性规划对偶解决大规模马尔可夫决策问题

本文提出了一种针对状态空间较大的 MDP 问题进行优化的方法，该方法基于一小组策略的占用度量的低维度逼近，并提出了一个有效的算法，可用于在该类策略中找到低过度损失相对于最佳策略的策略。作者限定了平均成本和折扣成本情况下的过量损失，并在队列应用中展示了该方法的有效性。

Jan, 2019

强化学习中的计算统计差距

本文针对强化学习中的大状态空间问题，研究使用函数逼近的强化学习方法，并提出了寻找高效率算法的方案，同时探讨了计算难度与统计问题之间的关系。

Feb, 2022