$ε$- 在线定价的策略梯度

May, 2024

$ε$-Policy Gradient for Online Pricing

Lukasz Szpruch, Tanut Treetanthiploet, Yufei Zhang

TL;DR该研究论文结合了基于模型和基于模型的强化学习方法，提出并分析了一种用于在线定价学习任务的 ε- 策略梯度算法。该算法通过将贪婪的利用替换为梯度下降步骤，并通过模型推理来促进学习。通过量化探索概率 ε 的探索成本和梯度下降优化和梯度估计错误的利用成本，优化了所提出算法的遗憾。该算法在 T 次试验中达到了 O (√T)（乘以一个对数因子）的预期遗憾。

Abstract

Combining model-based and model-free reinforcement learning approaches, this paper proposes and analyzes an $\epsilon$-policy gradient algorithm for the →

reinforcement learning online pricing learning algorithm regret exploration probability

发现论文，激发创造

在线和近似强化学习中的多步贪心策略

本文研究了使用多步贪婪算法的实际应用，发现在软策略更新时，只有更新步长足够大，才能保证单调策略改进，提出了组合在线和近似算法。

May, 2018

通过离线策略评估的保守探索策略优化

为了在现实世界的系统中部署一种强化学习代理，必须对学习过程提供保证。我们研究了保守型探索问题，在此问题中，学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术，通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限，并且展示了在学习过程中从未违反保守约束条件的（高概率）证明。最后，我们利用这些见解，通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。

Dec, 2023

无模型强化学习：从剪切伪懊恼到样本复杂度

本文提出了一种无模型的算法来学习具有折扣因子的马尔可夫决策过程中的政策，该算法的成功概率为 (1-p)，且具有样本复杂度 O (SALn (1/p)/(ε^2 (1-γ)^3))，其中 S 是状态数，A 是行动数，γ 是折扣因子，ε 是一个近似阈值

Jun, 2020

PC-PG: 基于策略覆盖指导探索的可证明策略梯度学习

介绍了 Policy Cover-Policy Gradient (PC-PG) 算法，其通过学习的策略集 (策略保证) 来平衡探索和开发的权衡，同时具有强大的模型误差优化保证

Jul, 2020

乐观自然策略梯度：一种简单高效的在线强化学习策略优化框架

本文提出了一种称为 Optimistic NPG 的简单高效策略优化框架，该框架的样本复杂度具有最优的维度依赖性，可以高效地学习线性 MDP 和函数逼近下的最优策略。

May, 2023

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

从增强学习到无悔在线学习的降低

提出了一种基于鞍点形式的强化学习到无悔在线学习的缩减方法，将强化学习问题分解成了遗憾最小化和函数逼近两个部分，并指出了这一缩减方法的重要性

Nov, 2019

策略优化中可证明高效的探索

本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本（OPPO），它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下，探索机制下的近似最优解，是第一种实现这一目标的算法。

Dec, 2019

通过知识危险寻优策略优化实现高效探索

提出了一种基于期望风险的探索算法，通过训练神经网络和优化策略使智能体具有探索未知状态的能力，在深度强化学习中表现出良好的性能。

Feb, 2023

无限时标平均奖励马尔可夫决策过程中策略梯度算法的遗憾分析

本文研究了无限时间段平均回报马尔可夫决策过程（MDP）。与现有研究不同的是，我们采用了基于通用策略梯度的算法，使其摆脱了线性 MDP 结构的约束。我们提出了一种基于策略梯度的算法，并证明了其全局收敛性质。然后我们证明该算法具有 $\tilde {\mathcal {O}}({T}^{3/4})$ 的后悔度。值得注意的是，本文是第一次对于一般参数化策略梯度算法在平均回报情景下的后悔计算进行了探索性研究。

Sep, 2023