半参数连续动作高效策略学习
本文主要研究基于观测数据的离线多行动策略学习问题,特别地,该策略可能需要遵守预算约束或属于受限策略类,如决策树,提出了一个算法实现,能够达到渐近最小化风险后悔,这是在多行动设置中的首次结果,对于现有的学习算法有大幅度的性能提升。该文提出了两种不同的方法来解决当策略被限制为采用决策树形式时出现的附加计算挑战,一种方法使用混合整数方案,另一种方法使用基于树搜索的算法。
Oct, 2018
本文提出了一种新的方法来优化二分类或连续处理的细微变化,该方法可以利用观测数据,其中因果效应使用各种策略(包括可观察的选择和仪器变量)进行识别,并建立了一种针对选择谁进行治疗的算法,并确定了其产生的政策渐近效用后悔的强有力保证。
Feb, 2017
一种新的基于期望的松弛动态模型逼近的混合策略梯度估计器,结合分数函数和路径推导估计器,对离散动作空间具有应用性和可扩展性,可在 Cart Pole、Acrobot、Mountain Car 和 Hand Mass 任务上学习参数化策略时显著降低样本复杂度,范围介于 1.7 倍到 25 倍之间。
Nov, 2017
研究提供了一种新的基于分布框架的生成式策略梯度算法 (GAC) 来解决现有的策略梯度方法由于限制策略表示为参数分布类而导致的局部移动及收敛到亚最优解的问题。该方法不需要知道分布函数,可以有效处理连续控制问题。实验结果显示 GAC 方法优于当前最先进的基线方法。
May, 2019
本文研究利用函数逼近的批量数据强化学习的统计理论,针对离线策略评估问题提出了基于回归的适应 Q 迭代方法,证明该方法是信息理论上的最优方法,错误估计接近最小,进而提供容易计算的置信区间,该方法在乐观规划和安全策略改进中可能有用
Feb, 2020
该论文讨论了使用观察数据进行最优策略学习(OPL)的多行动(或多臂)设置下的数据驱动最优决策问题,分别从估计、风险偏好和潜在失败三个方面进行了讨论,并提出了关于线下最优策略学习估计器的识别假设和统计特性,以及决策风险分析和最优选择受决策者风险态度的影响,最后讨论了影响最优数据驱动决策的条件限制。
Mar, 2024
混合符号奖励环境中,重新考虑原有策略更新方法的安全性,通过解决数值估计误差的问题和不显式地最大化 Q 值的方法,提出了新的离策略演员 - 评论家方法,以提高深度强化学习算法在连续动作空间中的学习效果。
Nov, 2023
为了在现实世界的系统中部署一种强化学习代理,必须对学习过程提供保证。我们研究了保守型探索问题,在此问题中,学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术,通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限,并且展示了在学习过程中从未违反保守约束条件的(高概率)证明。最后,我们利用这些见解,通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。
Dec, 2023
本文提出一种改进的基于 policy gradient 的强化学习算法,通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术,提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明,相较于标准的 policy gradient 方法,该算法能够成功可靠地使用更少的系统交互来学习解决方案。
May, 2019
通过数据策略辅助下的敏感性模型,我们开发了一种强健的方法,针对诸如教育和医疗等批量强化学习的应用中未被观察到的变量,估计了一个无限时间阶段内给定策略值的尖锐边界。我们证明,随着我们收集更多混淆数据,我们能够收敛于尖锐的边界。虽然检查集合成员身份是一个线性规划,但支持功能是由一个困难的非凸优化问题给出的。我们基于非凸投影梯度下降方法开发了一些近似,并在实证中演示了所得到的边界。
Feb, 2020