探索增强的 POLITEX
为了在现实世界的系统中部署一种强化学习代理,必须对学习过程提供保证。我们研究了保守型探索问题,在此问题中,学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术,通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限,并且展示了在学习过程中从未违反保守约束条件的(高概率)证明。最后,我们利用这些见解,通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。
Dec, 2023
本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本(OPPO),它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下,探索机制下的近似最优解,是第一种实现这一目标的算法。
Dec, 2019
本文提出了一种改进版的 COPOE 算法,克服 Policy optimization 方法在采样复杂度方面的问题,同时保留它对模型不当规格化的鲁棒性。
Mar, 2021
介绍了一种名为 Policy Optimization with Model-based Explorations (POME) 的新的强化学习策略优化方法,将模型自由和模型依赖估计方法的差距视作探索价值的度量,并将 Monte-Carlo 抽样方法与转移模型相结合,以最大化预测误差的探索价值,从而解决了模型自由与模型依赖学习之间权衡的问题。
Nov, 2018
研究使用线性函数逼近和模拟器的查询和计算高效的计划算法,在这种情况下,我们提出了名为 “Confident MC-LSPI” 和 “Confident MC-Politex” 的两种算法,同时证明了我们的算法在特征,有效规划控制范围和目标次优性的维度中具有多项查询和计算成本,而这些成本与状态空间的大小无关。
Aug, 2021
本研究考虑模型基于强化学习中的政策优化方法,提出了一种乐观的信任域策略优化算法,在离散情况下,对于未知转换和奖励反馈的情况,获得了首个亚线性 Regret 的下界。
Feb, 2020
本文提出一种基于策略优化的算法,通过简单高效的收缩机制替代了昂贵的探索预热阶段,实现了在两种基本设置下的最优遗憾保证,即全信息反馈的对抗性损失和赌博反馈的随机损失。
Jul, 2024
本文针对 tabular Markov 决策过程中的策略优化方法,通过设计适当的正则化器、探索奖励和学习率,在损失为随机时实现更优的 Polylog (T) 的损失,而在对抗的情况下不降低最坏情况下的保障,并且使用 Tsallis Entropy 和 Shannon Entropy regularizer 实现了这一目标。同时,我们展示了在已知的转移条件下,通过利用对数障碍正则化器,在对抗情况下可以获得一阶损失保证。
Feb, 2023
探讨了在强化学习环境下的探索与利用权衡,提出了自适应探索的近端策略优化算法(axPPO),该方法通过根据智能体的最近表现动态调整探索幅度,提高了学习效率,特别是在学习过程开始阶段需要大量探索性行为时。
May, 2024