半参数连续动作高效策略学习

May, 2019

Semi-Parametric Efficient Policy Learning with Continuous Actions

Mert Demirer, Vasilis Syrgkanis, Greg Lewis, Victor Chernozhukov

TL;DR研究非策略性评估和优化在连续行动空间中的应用，提出基于半参量法的双重稳健非策略性估计模型，并证明了其对策略函数估计误差或回归模型的估计误差具有稳健性。该模型对于最优个性化定价和资源分配具有应用价值。

Abstract

We consider off-policy evaluation and optimization with continuous action spaces. We focus on observational data where the data collection policy is unknown and needs to be estimated. We take a →

off-policy evaluation continuous action spaces observational data semi-parametric approach doubly robust off-policy estimate

发现论文，激发创造

离线多操作策略学习：泛化与优化

本文主要研究基于观测数据的离线多行动策略学习问题，特别地，该策略可能需要遵守预算约束或属于受限策略类，如决策树，提出了一个算法实现，能够达到渐近最小化风险后悔，这是在多行动设置中的首次结果，对于现有的学习算法有大幅度的性能提升。该文提出了两种不同的方法来解决当策略被限制为采用决策树形式时出现的附加计算挑战，一种方法使用混合整数方案，另一种方法使用基于树搜索的算法。

Oct, 2018

利用观测数据进行政策学习

本文提出了一种新的方法来优化二分类或连续处理的细微变化，该方法可以利用观测数据，其中因果效应使用各种策略（包括可观察的选择和仪器变量）进行识别，并建立了一种针对选择谁进行治疗的算法，并确定了其产生的政策渐近效用后悔的强有力保证。

Feb, 2017

将路径法和得分函数估值器相结合，用于离散行为空间的确定性策略优化

一种新的基于期望的松弛动态模型逼近的混合策略梯度估计器，结合分数函数和路径推导估计器，对离散动作空间具有应用性和可扩展性，可在 Cart Pole、Acrobot、Mountain Car 和 Hand Mass 任务上学习参数化策略时显著降低样本复杂度，范围介于 1.7 倍到 25 倍之间。

Nov, 2017

分布式策略优化：连续控制的另一种方法

研究提供了一种新的基于分布框架的生成式策略梯度算法 (GAC) 来解决现有的策略梯度方法由于限制策略表示为参数分布类而导致的局部移动及收敛到亚最优解的问题。该方法不需要知道分布函数，可以有效处理连续控制问题。实验结果显示 GAC 方法优于当前最先进的基线方法。

May, 2019

线性函数逼近下的最小化最优离线策略评估

本文研究利用函数逼近的批量数据强化学习的统计理论，针对离线策略评估问题提出了基于回归的适应 Q 迭代方法，证明该方法是信息理论上的最优方法，错误估计接近最小，进而提供容易计算的置信区间，该方法在乐观规划和安全策略改进中可能有用

Feb, 2020

多动作场景中基于观测数据的最优策略学习：估计、风险偏好和潜在失败

该论文讨论了使用观察数据进行最优策略学习（OPL）的多行动（或多臂）设置下的数据驱动最优决策问题，分别从估计、风险偏好和潜在失败三个方面进行了讨论，并提出了关于线下最优策略学习估计器的识别假设和统计特性，以及决策风险分析和最优选择受决策者风险态度的影响，最后讨论了影响最优数据驱动决策的条件限制。

Mar, 2024

处理成本和约束的离策略深度强化学习

混合符号奖励环境中，重新考虑原有策略更新方法的安全性，通过解决数值估计误差的问题和不显式地最大化 Q 值的方法，提出了新的离策略演员 - 评论家方法，以提高深度强化学习算法在连续动作空间中的学习效果。

Nov, 2023

通过离线策略评估的保守探索策略优化

为了在现实世界的系统中部署一种强化学习代理，必须对学习过程提供保证。我们研究了保守型探索问题，在此问题中，学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术，通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限，并且展示了在学习过程中从未违反保守约束条件的（高概率）证明。最后，我们利用这些见解，通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。

Dec, 2023

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

无限时间序列强化学习中具有混淆鲁棒性的策略评估

通过数据策略辅助下的敏感性模型，我们开发了一种强健的方法，针对诸如教育和医疗等批量强化学习的应用中未被观察到的变量，估计了一个无限时间阶段内给定策略值的尖锐边界。我们证明，随着我们收集更多混淆数据，我们能够收敛于尖锐的边界。虽然检查集合成员身份是一个线性规划，但支持功能是由一个困难的非凸优化问题给出的。我们基于非凸投影梯度下降方法开发了一些近似，并在实证中演示了所得到的边界。

Feb, 2020