AlgaeDICE: 来自任意经验的策略梯度
通过将策略优化视为概率度量空间中的Wasserstein梯度流,我们在数字化求解相应的离散梯度流时开发了高效算法,通过实验证明了此方法的有效性。
Aug, 2018
本文提出了一种名为排名策略梯度方法(RPG)的强化学习方法,它可以提高样本有效性,实现离线学习,同时大大降低了状态空间维度的影响。实验结果证明,在离线学习框架中,RPG方法可以较大程度降低样本复杂度,从而与现有技术相比具有更好的性能。
Jun, 2019
本论文主要探讨凸对偶性的基本概念,重点关注最通用且超级有用的Fenchel-Rockafellar对偶性,总结了如何将此对偶性应用于各种强化学习(RL)场景中,包括策略评估或优化、在线或离线学习,以及折现或未折现奖励。
Jan, 2020
GradientDICE 提出了一种基于Perron-Frobenius定理、采用线性函数逼近来优化不同目标的算法,解决了基于状态分布估计采样分布下密度比的凸凹问题,比GenDICE更加稳健且简洁。
Jan, 2020
本文研究了如何在离线数据中高效地估计策略梯度。我们提出了一个元算法,在不需要参数假设的情况下实现了可行均方误差的渐进下界,并且具有三重双重稳健性质。我们还讨论了如何估计算法所依赖的干扰量。最后,我们证明了当我们朝着新的策略梯度方向迈出步伐时,我们接近稳态点的速度是有保证的。
Feb, 2020
本研究提出了行为约束的策略优化方法,通过模拟历史状态转移,采用先进的算法,成功地实现了通过行为约束进行离线强化学习。研究中,我们提出了闭式策略改进算子。我们首次发现,行为约束自然促使使用一阶泰勒展开,从而线性逼近策略目标。此外,由于实际数据通常由异构策略收集,因此我们将行为策略建模为高斯混合,并通过利用LogSumExp的下界和Jensen不等式克服引入的优化困难,得到闭式策略改进算子。我们使用这种新颖的策略改进算子实例化离线RL算法,并在标准D4RL基准测试上成功地实验验证了其有效性。
Nov, 2022
本研究提供了关于策略梯度算法的新的理论解释和证明。同时,文章还提出,策略梯度算法中的探索是计算当前政策回报的连续,而策略的方差应该是适应历史的函数,以避免局部极值,而不是为了最大化政策的回报。
May, 2023
本文提出了一种基于线性规划的原对偶优化方法,该方法针对有限时间或使用表格的强 RL 范式有较强的理论保证,采用函数近似和最小数据集假设解决了无限时间范式的算法问题,并在更具挑战性的平均回报设置下进行了分析。
May, 2023
此研究论文介绍了一种名为 $f$-PG 的新型鼓励探索方法,通过最小化智能体状态访问分布与目标之间的 f-分歧来实现稀疏奖励环境下的优化策略,同时引入了熵正则化策略优化目标 $s$-MaxEnt RL 用于优化度量为 L2 的奖励,在多个环境中展示了与标准策略梯度方法相比更好的性能。
Oct, 2023
政策梯度方法是广泛应用于具有连续动作空间的任务的强化学习算法,本研究探讨了远离策略目标和传统的在线策略目标之间的差异,并提供了首个理论分析以及条件减小差距的经验证据。
Feb, 2024