线性 MDP 的离线原始 - 对偶强化学习

May, 2023

线性 MDP 的离线原始 - 对偶强化学习

Offline Primal-Dual Reinforcement Learning for Linear MDPs

Germano Gabbianelli, Gergely Neu, Nneka Okolo, Matteo Papini

TL;DR本文提出了一种基于线性规划的原对偶优化方法，该方法针对有限时间或使用表格的强 RL 范式有较强的理论保证，采用函数近似和最小数据集假设解决了无限时间范式的算法问题，并在更具挑战性的平均回报设置下进行了分析。

Abstract

offline reinforcement learning (RL) aims to learn a near-optimal policy from a fixed dataset of transitions collected by another policy. This problem has attracted a lot of attention recently, but most existing methods with strong theoretical guarantees are restricted to finite-horizon

offline reinforcement learning infinite-horizon function approximation linear programming average-reward setting

发现论文，激发创造

离线约束强化学习的低秩 MDP 原始 - 对偶算法

该论文提出了一种用于解决低秩 Markov 决策过程的离线强化学习算法，该算法在折扣无限时间段设置中具有较低的样本复杂度，且支持离线约束强化学习设置。

Feb, 2024

线性函数逼近下的近似极小极大离线强化学习：单智能体 MDP 和马尔科夫博弈

本文提出了一种基于悲观主义的离线线性 MDP 算法，核心是使用参考函数进行不确定性分解并利用理论分析证明，该算法可以匹配性能下限并且该技术可以扩展到两人零和马尔可夫博弈，验证了算法的极小极大最优性。这是目前关于使用线性函数逼近的单智能体 MDPs 和 MGs 的第一个有效的极小极大最优算法。

May, 2022

具有线性函数逼近的分布鲁棒离线强化学习

本论文介绍了一种用于解决强化学习中有限数据和训练测试环境不匹配的问题的分布式离线 RL 方法，该方法使用历史数据学习分布式鲁棒的策略，包括线性函数逼近的情况，提出了两种算法，得出了第一个样例复杂度的非渐近性结果，并展示了其在实验上的优越性。

Sep, 2022

策略微调：连接高样本效率离线与在线强化学习

本文研究了在线学习与离线数据集学习两种环境下的样本有效的强化学习，提出了一个新的策略微调问题 —— 在线 RL 中，学习者在某种意义下可以接近最优策略，并在马尔科夫决策过程 (MDP) 中解决了这个问题。我们还提出了一个新的混合离线 / 在线策略微调算法，达到了更好的样本复杂度。

Jun, 2021

利用离线数据进行在线强化学习

本文考虑了具有线性结构的 MDPs 的 FineTuneRL 设置，并开发了一种称为 FTPedel 的算法，用于结合脱机数据和在线 RL 以改进学习表现，结果证明了在线样本数的必要性以及在线 RL 和脱机数据结合的优越性，突出了在线 RL 和脱机 RL 之间的区别。

Nov, 2022

通过双方差降低近似最优离线强化学习

本文提出了一种新的算法 OPDVR 用于离线强化学习中的方差缩减，其能够证明在离线数据情况下，在有限时间内获得最优策略，同时在某些环境设定下具有最优样本复杂度，为离线强化学习的发展提供了新方案。

Feb, 2021

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

无穷时间 MDP 的离线数据高效在线学习：一种贝叶斯方法

本文研究了在线强化学习问题在无限时间段环境中的高效解决方法，其中假设有一个离线数据集作为起点，由一个未知能力水平的专家生成，我们展示了如果学习代理建模了专家使用的行为策略，它可以在最小化累计遗憾方面表现得更好，我们建立了一个前瞻性依赖先验的遗憾界限，提出了近似的被告知 RLSVI 算法，可以解释为使用离线数据集进行模仿学习，然后进行在线学习。

Oct, 2023

建立分布鲁棒学习和离线强化学习的桥梁：缓解分布偏移和部分数据覆盖的方法

离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决，本文提出了两种使用该框架的离线强化学习算法，并通过模拟实验展示了其优越性能。

Oct, 2023

分布鲁棒离轨强化学习：通过线性函数逼近的证明效率

我们研究在源域进行训练并在不同的目标域中部署的离线动态强化学习，通过在线分布鲁棒的马尔可夫决策过程来解决此问题，我们的学习算法在与源域交互时寻求在源域转移核不确定性集合中最坏动态下的最优性能。我们设计了一个使用总变差距离的 $d$- 长方形不确定性集合，通过去除额外的非线性性和绕过误差传播来解决 DRMDPs 的非线性问题，并引入了 DR-LSVI-UCB 算法，这是第一个在离线动态强化学习中具有函数逼近的可验证高效性的在线 DRMDP 算法，并建立了一个与状态和动作空间大小无关的多项式次优性界限。我们的工作是对在线 DRMDPs 与线性函数逼近的可验证高效性的深入理解的第一步。最后，我们通过不同的数值实验验证了 DR-LSVI-UCB 的性能和鲁棒性。

Feb, 2024