面向高效部署的强化学习：下界和最优性

ICLRFeb, 2022

面向高效部署的强化学习：下界和最优性

Towards Deployment-Efficient Reinforcement Learning: Lower Bound and Optimality

Jiawei Huang, Jinglin Chen, Li Zhao, Tao Qin, Nan Jiang...

TL;DR本篇论文基于 “约束优化” 的思想，提出了一种针对 RL 的”deployment efficiency“问题的理论表述，并使用有限时间线性 MDP 作为具体结构模型，揭示了在获取最佳策略的同时实现最小 “deployment complexity” 的最优部署效率的限制，并提供了相应的算法。此外，该表述还可以作为其他实际相关设置的构建块，具有灵活性。两个实例是 “安全 DE-RL” 和 “样本高效 DE-RL”，这些值得未来研究。

Abstract

Deployment efficiency is an important criterion for many real-world applications of reinforcement learning (RL). Despite the community's increasing interest, there lacks a formal theoretical formulation for the problem. In this paper, we propose such a formulation for deployment-efficient rl<

deployment-efficient rl optimization with constraints linear mdps information-theoretic lower bounds safe de-rl

发现论文，激发创造

基于线性函数逼近的无奖励强化学习中的近最优部署效率

研究如何在施加 “无回报探索” 的情况下，使用线性函数逼近在提高效率时落地实施策略，最后我们提出了一种新算法，只需在 H 次部署中收集最多 O (~d²H⁵/ε²) 的轨迹，在不同的奖励函数设定下，即可找到一个 ε- 最优策略，并且在样本复杂度和 d 依赖性中同时达到最优的部署复杂度。

Oct, 2022

基于模型的离线优化的部署高效强化学习

本文提出了一个新概念 —— 部署效率，以衡量一个策略学习过程中使用的不同数据收集策略的数量，指出递归地使用现有的无模型离线强化学习算法不能实现实用的部署效率和样本效率，因此提出了一种名为 BREMEN 的新型基于模型的算法，在仅使用 10-20 倍于以前工作的数据的情况下，能够有效地离线优化策略，实现出色的部署效率和样本效率的学习，并使用仅 5-10 次部署即可在模拟的机器人环境中从头开始成功地学习策略，而标准强化学习基线的典型值是数百万次。

Jun, 2020

线性 MDP 的离线原始 - 对偶强化学习

本文提出了一种基于线性规划的原对偶优化方法，该方法针对有限时间或使用表格的强 RL 范式有较强的理论保证，采用函数近似和最小数据集假设解决了无限时间范式的算法问题，并在更具挑战性的平均回报设置下进行了分析。

May, 2023

离线约束强化学习的低秩 MDP 原始 - 对偶算法

该论文提出了一种用于解决低秩 Markov 决策过程的离线强化学习算法，该算法在折扣无限时间段设置中具有较低的样本复杂度，且支持离线约束强化学习设置。

Feb, 2024

强化学习中的计算统计差距

本文针对强化学习中的大状态空间问题，研究使用函数逼近的强化学习方法，并提出了寻找高效率算法的方案，同时探讨了计算难度与统计问题之间的关系。

Feb, 2022

离线强化学习与人类反馈的部署

提出一种基于人类监督的强化学习在线部署框架，包含两种方法：一是通过模型选择和上置信区间算法自适应选择候选离线强化学习模型进行部署，二是在监督信号到达时在线微调模型。通过实证验证，这些方法有效地应用于机器人运动控制和交通信号控制任务中。

Mar, 2023

线性函数逼近下的近似极小极大离线强化学习：单智能体 MDP 和马尔科夫博弈

本文提出了一种基于悲观主义的离线线性 MDP 算法，核心是使用参考函数进行不确定性分解并利用理论分析证明，该算法可以匹配性能下限并且该技术可以扩展到两人零和马尔可夫博弈，验证了算法的极小极大最优性。这是目前关于使用线性函数逼近的单智能体 MDPs 和 MGs 的第一个有效的极小极大最优算法。

May, 2022

分布鲁棒离线强化学习的极小极大最优和计算高效算法

分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法，当面对大规模状态 - 动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法，通过对线性参数化的模型进行实现，探索了实例依赖次优性分析在鲁棒离线强化学习中的应用，并揭示了鲁棒离线强化学习中的函数逼近与标准离线强化学习所面临的困难之间的本质区别。

Mar, 2024

马尔科夫决策过程中的双重强化学习，用于高效的离线策略评估

这篇论文讲述了在马尔科夫决策过程中 (off-policy evaluation) 基于无记忆存储的状态、行动和奖励的情况下，使用交叉折叠法来计算 $q$-functions 和边际密度比率的双重强化学习 (DRL) 的有效性研究。研究表明，在第四次方根率下估算两个因素时，DRL 具有高效性，并且当仅一个因素一致时也具有双重正确性。

Aug, 2019

具有恒定子最优性差异的可线性实现 MDPs 的指数下界

本研究讨论在线强化学习问题，探讨了是否能够通过加入一个常数子优性差值的假设来实现有效学习，结果发现即使假设线性实现了最优 Q 函数，仍然需要指数级别的样本量，进一步证明在线学习和生成模型学习之间存在指数差距。

Mar, 2021