AlgaeDICE: 来自任意经验的策略梯度

Dec, 2019

AlgaeDICE: 来自任意经验的策略梯度

AlgaeDICE: Policy Gradient from Arbitrary Experience

Ofir Nachum, Bo Dai, Ilya Kostrikov, Yinlam Chow, Lihong Li...

TL;DR本文提出一种新颖的强化学习算法，利用双重变量不等式技术，通过辅助最优化问题得到二阶鞍点，无需使用重要性加权，实现了从任意行为策略上学习并优化目标策略。

Abstract

In many real-world applications of reinforcement learning (RL), interactions with the environment are limited due to cost or feasibility. This presents a challenge to traditional RL algorithms since the max-return objective involves an expectation over on-policy samples. We introduce a

发现论文，激发创造

作为Wasserstein梯度流的策略优化

通过将策略优化视为概率度量空间中的Wasserstein梯度流，我们在数字化求解相应的离散梯度流时开发了高效算法，通过实验证明了此方法的有效性。

Aug, 2018

排名策略梯度

本文提出了一种名为排名策略梯度方法（RPG）的强化学习方法，它可以提高样本有效性，实现离线学习，同时大大降低了状态空间维度的影响。实验结果证明，在离线学习框架中，RPG方法可以较大程度降低样本复杂度，从而与现有技术相比具有更好的性能。

Jun, 2019

基于 Fenchel-Rockafellar 对偶的强化学习

本论文主要探讨凸对偶性的基本概念，重点关注最通用且超级有用的Fenchel-Rockafellar对偶性，总结了如何将此对偶性应用于各种强化学习（RL）场景中，包括策略评估或优化、在线或离线学习，以及折现或未折现奖励。

Jan, 2020

GradientDICE: 重新思考广义离线估计方式下的固定值

GradientDICE 提出了一种基于Perron-Frobenius定理、采用线性函数逼近来优化不同目标的算法，解决了基于状态分布估计采样分布下密度比的凸凹问题，比GenDICE更加稳健且简洁。

Jan, 2020

统计高效的离线策略梯度

本文研究了如何在离线数据中高效地估计策略梯度。我们提出了一个元算法，在不需要参数假设的情况下实现了可行均方误差的渐进下界，并且具有三重双重稳健性质。我们还讨论了如何估计算法所依赖的干扰量。最后，我们证明了当我们朝着新的策略梯度方向迈出步伐时，我们接近稳态点的速度是有保证的。

Feb, 2020

闭合形式策略改进算子下的离线强化学习

本研究提出了行为约束的策略优化方法，通过模拟历史状态转移，采用先进的算法，成功地实现了通过行为约束进行离线强化学习。研究中，我们提出了闭式策略改进算子。我们首次发现，行为约束自然促使使用一阶泰勒展开，从而线性逼近策略目标。此外，由于实际数据通常由异构策略收集，因此我们将行为策略建模为高斯混合，并通过利用LogSumExp的下界和Jensen不等式克服引入的优化困难，得到闭式策略改进算子。我们使用这种新颖的策略改进算子实例化离线RL算法，并在标准D4RL基准测试上成功地实验验证了其有效性。

Nov, 2022

策略梯度算法通过延续隐式优化

本研究提供了关于策略梯度算法的新的理论解释和证明。同时，文章还提出，策略梯度算法中的探索是计算当前政策回报的连续，而策略的方差应该是适应历史的函数，以避免局部极值，而不是为了最大化政策的回报。

May, 2023

线性 MDP 的离线原始-对偶强化学习

本文提出了一种基于线性规划的原对偶优化方法，该方法针对有限时间或使用表格的强 RL 范式有较强的理论保证，采用函数近似和最小数据集假设解决了无限时间范式的算法问题，并在更具挑战性的平均回报设置下进行了分析。

May, 2023

f-策略梯度: 一种使用f-散度的目标条件化强化学习的通用框架

此研究论文介绍了一种名为 $f$-PG 的新型鼓励探索方法，通过最小化智能体状态访问分布与目标之间的 f-分歧来实现稀疏奖励环境下的优化策略，同时引入了熵正则化策略优化目标 $s$-MaxEnt RL 用于优化度量为 L2 的奖励，在多个环境中展示了与标准策略梯度方法相比更好的性能。

Oct, 2023

离策略和同策略策略梯度方法何时一致？

政策梯度方法是广泛应用于具有连续动作空间的任务的强化学习算法，本研究探讨了远离策略目标和传统的在线策略目标之间的差异，并提供了首个理论分析以及条件减小差距的经验证据。

Feb, 2024