大动作空间中的非线性强化学习：后验采样的结构条件和样本效率

Mar, 2022

大动作空间中的非线性强化学习：后验采样的结构条件和样本效率

Non-Linear Reinforcement Learning in Large Action Spaces: Structural Conditions and Sample-efficiency of Posterior Sampling

PDF

Alekh Agarwal, Tong Zhang

TL;DR本工作提出了一种非线性函数近似的新方法，该方法考虑了具有一般动作空间下的线性可嵌入性条件，设计了一种新的乐观后验取样策略 TS^3，并展示了一些最坏情况的样本复杂度保证。

Abstract

Provably sample-efficient reinforcement learning (RL) with rich observations and function approximation has witnessed tremendous recent progress, particularly when the underlying function approximators are linear

reinforcement learning function approximation sample complexity optimistic posterior sampling strategy linear embeddability

发现论文，激发创造

基于模型的强化学习在连续控制中的后验采样

本文研究了连续状态动作空间中强化学习的基于模型的后验抽样（PSRL），提出了第一个后验抽样的遗憾上界，并开发了 MPC–PSRL 算法来选择动作，通过贝叶斯线性回归捕获模型中的不确定性，在基准连续控制任务中实现了最先进的样本效率，并与无模型算法的渐近性能相匹配。

Nov, 2020

带有线性函数逼近的可证明有效强化学习

本文提出了第一个在基于线性动态和线性奖励时，具有多项式运行时间和样本复杂度的可证明的强化学习算法，该算法可以在不需要模拟器或其他假设的情况下实现，具有快速速度且与状态和动作数量无关。

Jul, 2019

具有延迟反馈的后验抽样用于线性函数逼近的强化学习

使用后验采样算法处理强化学习中的延迟反馈问题，通过线性函数逼近在减少样本复杂性的同时实现更好的性能表现，并在未知随机延迟的情况下具有最坏情况遗憾上界。

Oct, 2023

通过后验抽样实现（更）高效的强化学习

该研究提出了一种用于强化学习的后验采样方法（PSRL），通过对一个先验分布进行贝叶斯更新来在已知的一系列时段内实现对 Markov 决策过程的优化，从而达到高效的探索。该算法在时间，状态和行动空间上有明显的性能优势，并具有一定的先验知识编码能力。

Jun, 2013

基于模型的强化学习：乐观后验采样的结构条件与样本复杂度

本文提出了一种通用框架来设计基于模型的 RL 的后验抽样方法，并表明所提出的算法可以通过在条件概率估计中将遗憾降至 Hellinger 距离来分析，进一步表明，在通过数据似然度量模型误差时，乐观后验抽样可以控制此 Hellinger 距离，这种技术允许我们设计和分析具有国内领先样本复杂度保证的多种基于模型的 RL 设置的统一后验抽样算法。我们在许多特殊情况下说明了我们的一般结果，展示了我们框架的多功能性。

Jun, 2022

强化学习中的计算统计差距

本文针对强化学习中的大状态空间问题，研究使用函数逼近的强化学习方法，并提出了寻找高效率算法的方案，同时探讨了计算难度与统计问题之间的关系。

Feb, 2022

基于核的 Q-Learning 的样本复杂度

本文论述了基于核心回归的 Q 学习在存在生成模型时的采样复杂度，提出了一种非参数 Q 学习算法，其样本复杂度优化到 ε 和核心复杂度的阶数，这是针对这种普遍模型的首个具有有限样本复杂度的结果。

Feb, 2023

具有潜在动态信息的可证明样本效率强化学习

本文研究了在观测结果高维的情况下，强化学习智能体如何使用对状态空间结构的抽象知识来学习目标领域中的任务。提出了一种名为 TASID 的算法，该算法学习目标任务的健壮策略，其采样复杂度是地平线次数的多项式，并且可以利用先前的知识独立于状态数。

May, 2022

使用线性函数逼近的强化学习的指数难度

研究了线性回报学习中底层的计算下界问题，并在随机指数时间假设下显示出指数级下界，证明了底层计算困难性，并且展示了一个接近最优算法的时域依赖性下界。

Feb, 2023

关于样本高效的离线强化学习：数据多样性，后验采样和更多

我们提出了一个新颖的基于后验采样的离线 RL 算法，该算法在样本效率方面表现出与基于版本空间和经验正则化的算法可比拟的性能，并且具有频率主义的亚优性界限。

Jan, 2024