线性复合模型集合在强化学习中的样本复杂度

Oct, 2019

线性复合模型集合在强化学习中的样本复杂度

Sample Complexity of Reinforcement Learning using Linearly Combined Model Ensembles

Aditya Modi, Nan Jiang, Ambuj Tewari, Satinder Singh

TL;DR本研究提出一种强化学习算法，使用一组预先训练的不准确模拟器的状态依赖线性组合来逼近真实环境，并且在未知参数数量的多项式样本复杂度下，无需状态空间或动作空间大小的限制下可获得近似最优策略，同时还讨论了模型选择时的困难情况并提供了一种经过证明的有效算法。

Abstract

reinforcement learning (RL) methods have been shown to be capable of learning intelligent behavior in rich domains. However, this has largely been done in simulated domains without adequate focus on the process of building the simulator. In this paper, we consider a setting where we ha

reinforcement learning ensemble of simulators policy learning state-dependent linear combination model selection

发现论文，激发创造

SEERL: 高效率样本集成强化学习

本文提出了一种新的训练和模型选择框架，用于模型无关的强化学习算法，使用单次训练的策略集合。这些策略通过定向扰动模型参数在一定时间间隔内进行学习，选择一个足够多样化的策略集合对于得到一个好的集成模型来说是必需的。该框架具有显著的样本效率和低计算成本，且在 Atari 2600 和 Mujoco 中表现优异。

Jan, 2020

集成强化学习：一项调查

本文介绍了近期一种重要的处理复杂任务的方法 —— 集成强化学习，它结合了强化学习和集成学习来充分探索问题空间，具有强的推广特性。本文综述了集成强化学习的研究现状和进展，分析了其成功应用的策略，并提出了一些未来的研究方向和应用。

Mar, 2023

基于核的 Q-Learning 的样本复杂度

本文论述了基于核心回归的 Q 学习在存在生成模型时的采样复杂度，提出了一种非参数 Q 学习算法，其样本复杂度优化到 ε 和核心复杂度的阶数，这是针对这种普遍模型的首个具有有限样本复杂度的结果。

Feb, 2023

多时间尺度集成 Q-learning 用于马尔科夫决策过程策略优化

提出了一种新颖的模型无关的集合强化学习算法，通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法，并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出，获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比，数值实验结果显示，该算法平均策略误差可以减少高达 55％，运行时复杂度可以减少高达 50％，并验证了理论分析中的假设。

Feb, 2024

大动作空间中的非线性强化学习：后验采样的结构条件和样本效率

本工作提出了一种非线性函数近似的新方法，该方法考虑了具有一般动作空间下的线性可嵌入性条件，设计了一种新的乐观后验取样策略 TS^3，并展示了一些最坏情况的样本复杂度保证。

Mar, 2022

一般强化学习的样本复杂度

本文提出了一种新的泛化强化学习算法，适用于真实环境属于 N 个任意模型的情况下。该算法被证明在除 O（N log^2 N）步骤之外的大部分情况下都是最优的，并考虑了无限的情况。同时研究表明，紧致性是决定存在统一样本复杂度界限的关键标准，并为有限情况给出匹配的下界。

Aug, 2013

模型集成信任区域策略优化

通过使用深度神经网络同时学习模型和策略，我们分析了基于模型的增强学习方法的行为，并展示出学习到的策略倾向于利用模型学习不足的区域，导致训练不稳定。为了解决这个问题，我们提出使用模型集合来维护模型的不确定性并规范学习过程，并进一步展示，与 “Backpropagation through time” 相比，使用 “likelihood ratio” 导数可以获得更加稳定的学习。通过我们的方法 ME-TRPO，在具有挑战性的连续控制基准任务中，显著减少了比基于模型的深度 RL 方法所需的样本数量。

Feb, 2018

使用线性函数逼近的强化学习的指数难度

研究了线性回报学习中底层的计算下界问题，并在随机指数时间假设下显示出指数级下界，证明了底层计算困难性，并且展示了一个接近最优算法的时域依赖性下界。

Feb, 2023

简化的时间一致增强学习

本文展示了一种简单的表示学习方法：只依赖于通过潜在时间一致性训练的潜在动态模型，既可以在计划类的强化学习中使用，也可以在基于模型的强化学习中作为策略和价值函数特征使用。该方法在高维度任务上优于模型无关方法，并在样本效率上达到了模型类方法的水平。

Jun, 2023

带有线性函数逼近的可证明有效强化学习

本文提出了第一个在基于线性动态和线性奖励时，具有多项式运行时间和样本复杂度的可证明的强化学习算法，该算法可以在不需要模拟器或其他假设的情况下实现，具有快速速度且与状态和动作数量无关。

Jul, 2019