探索增强的 POLITEX

Aug, 2019

Exploration-Enhanced POLITEX

Yasin Abbasi-Yadkori, Nevena Lazic, Csaba Szepesvari, Gellert Weisz

TL;DR该论文从强化学习、价值函数逼近和策略迭代等方面出发，提出了一种改进的 POLITEX 算法，采用单个充分探索策略替代之前对所有策略均需要探索环境的假设，以实现在存在探索难题的情况下控制代价的目标。

Abstract

We study algorithms for average-cost reinforcement learning problems with value function approximation. Our starting point is the recently proposed POLITEX algorithm, a version of →

reinforcement learning value function approximation policy iteration exploration policy regret guarantee

发现论文，激发创造

通过离线策略评估的保守探索策略优化

为了在现实世界的系统中部署一种强化学习代理，必须对学习过程提供保证。我们研究了保守型探索问题，在此问题中，学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术，通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限，并且展示了在学习过程中从未违反保守约束条件的（高概率）证明。最后，我们利用这些见解，通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。

Dec, 2023

强化学习中的保守探索

本文介绍了在概率有限马尔可夫决策问题中引入保守探索的概念，并提出了两种乐观算法，以保证学习过程中不违反保守约束，这不会妨碍算法的学习能力，并给出了后悔界限。

Feb, 2020

策略优化中可证明高效的探索

本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本（OPPO），它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下，探索机制下的近似最优解，是第一种实现这一目标的算法。

Dec, 2019

线性函数逼近的谨慎乐观策略优化与探索

本文提出了一种改进版的 COPOE 算法，克服 Policy optimization 方法在采样复杂度方面的问题，同时保留它对模型不当规格化的鲁棒性。

Mar, 2021

基于模型探索的策略优化

介绍了一种名为 Policy Optimization with Model-based Explorations (POME) 的新的强化学习策略优化方法，将模型自由和模型依赖估计方法的差距视作探索价值的度量，并将 Monte-Carlo 抽样方法与转移模型相结合，以最大化预测误差的探索价值，从而解决了模型自由与模型依赖学习之间权衡的问题。

Nov, 2018

使用线性函数逼近实现高效的本地规划

研究使用线性函数逼近和模拟器的查询和计算高效的计划算法，在这种情况下，我们提出了名为 “Confident MC-LSPI” 和 “Confident MC-Politex” 的两种算法，同时证明了我们的算法在特征，有效规划控制范围和目标次优性的维度中具有多项查询和计算成本，而这些成本与状态空间的大小无关。

Aug, 2021

基于 Bandit 反馈的乐观策略优化

本研究考虑模型基于强化学习中的政策优化方法，提出了一种乐观的信任域策略优化算法，在离散情况下，对于未知转换和奖励反馈的情况，获得了首个亚线性 Regret 的下界。

Feb, 2020

无需热身的策略优化：在线性马尔可夫决策过程中改进遗憾

本文提出一种基于策略优化的算法，通过简单高效的收缩机制替代了昂贵的探索预热阶段，实现了在两种基本设置下的最优遗憾保证，即全信息反馈的对抗性损失和赌博反馈的随机损失。

Jul, 2024

双重利润策略优化

本文针对 tabular Markov 决策过程中的策略优化方法，通过设计适当的正则化器、探索奖励和学习率，在损失为随机时实现更优的 Polylog (T) 的损失，而在对抗的情况下不降低最坏情况下的保障，并且使用 Tsallis Entropy 和 Shannon Entropy regularizer 实现了这一目标。同时，我们展示了在已知的转移条件下，通过利用对数障碍正则化器，在对抗情况下可以获得一阶损失保证。

Feb, 2023

自适应探索的近端策略优化

探讨了在强化学习环境下的探索与利用权衡，提出了自适应探索的近端策略优化算法（axPPO），该方法通过根据智能体的最近表现动态调整探索幅度，提高了学习效率，特别是在学习过程开始阶段需要大量探索性行为时。

May, 2024