离线多操作策略学习：泛化与优化

Oct, 2018

离线多操作策略学习：泛化与优化

Offline Multi-Action Policy Learning: Generalization and Optimization

Zhengyuan Zhou, Susan Athey, Stefan Wager

TL;DR本文主要研究基于观测数据的离线多行动策略学习问题，特别地，该策略可能需要遵守预算约束或属于受限策略类，如决策树，提出了一个算法实现，能够达到渐近最小化风险后悔，这是在多行动设置中的首次结果，对于现有的学习算法有大幅度的性能提升。该文提出了两种不同的方法来解决当策略被限制为采用决策树形式时出现的附加计算挑战，一种方法使用混合整数方案，另一种方法使用基于树搜索的算法。

Abstract

In many settings, a decision-maker wishes to learn a rule, or policy, that maps from observable characteristics of an individual to an action. Examples include selecting offers, prices, advertisements, or emails to send to consumers, as well as the problem of determining which medication to prescribe to a patient. While there is a growing body of literature

policy learning observational data multi-action asymptotically minimax-optimal regret decision tree

发现论文，激发创造

多动作场景中基于观测数据的最优策略学习：估计、风险偏好和潜在失败

该论文讨论了使用观察数据进行最优策略学习（OPL）的多行动（或多臂）设置下的数据驱动最优决策问题，分别从估计、风险偏好和潜在失败三个方面进行了讨论，并提出了关于线下最优策略学习估计器的识别假设和统计特性，以及决策风险分析和最优选择受决策者风险态度的影响，最后讨论了影响最优数据驱动决策的条件限制。

Mar, 2024

多个目标的策略学习：将最优策略树与多目标贝叶斯优化相结合

论文提出了一种称为多目标策略学习的方法，它将政策学习的最佳决策树与多目标贝叶斯优化方法相结合，通过建立非支配模型的帕累托前沿来探索多个结果间的权衡，并使用代理函数作为非常昂贵的期望遗憾的最优树的准确代理。该方法应用于摩洛哥现实案例研究中的条件性现金转移上，部分最优、部分贪心的杂交策略树作为最优策略树的代理，能够提供良好的性能，并且计算成本低廉。

Dec, 2022

利用观测数据进行政策学习

本文提出了一种新的方法来优化二分类或连续处理的细微变化，该方法可以利用观测数据，其中因果效应使用各种策略（包括可观察的选择和仪器变量）进行识别，并建立了一种针对选择谁进行治疗的算法，并确定了其产生的政策渐近效用后悔的强有力保证。

Feb, 2017

半参数连续动作高效策略学习

研究非策略性评估和优化在连续行动空间中的应用，提出基于半参量法的双重稳健非策略性估计模型，并证明了其对策略函数估计误差或回归模型的估计误差具有稳健性。该模型对于最优个性化定价和资源分配具有应用价值。

May, 2019

无模型模仿学习与策略优化

在模仿学习中，我们使用基于样本的方法开发了一种基于策略梯度的算法，即通过学习专家的样本轨迹，找到至少与专家策略一样好的参数化随机策略；该算法可以应用于高维度环境，并保证收敛到局部最小值。

May, 2016

学习何时治疗的策略

开发了一种基于 “优势双倍稳健” 估计器的动态治疗规则学习方法，适用于顺序无关性假设，证明了福利遗憾界，展示了在几种不同背景下有希望的实证表现。该方法适用于政策优化，不需要任何结构性假设。

May, 2019

政策规范化的离线多目标强化学习

本文致力于利用仅离线轨迹数据训练一个多目标强化学习策略。我们将单目标离线强化学习问题中广泛采用的离线策略正则化方法扩展到多目标设置，以达到上述目标。然而，在离线多目标强化学习设置中，存在新的挑战，即偏好不一致演示问题。我们提出了两个解决方案：1）通过近似行为偏好来过滤偏好不一致的演示，和 2）采用具有高策略表达能力的正则化技术。此外，我们将偏好条件化的标量化更新方法整合到策略正则化的离线强化学习中，以便使用单个策略网络同时学习一组策略，从而减少训练大量不同偏好的个体策略所带来的计算成本。最后，我们引入了正则化权重适应机制，在部署过程中动态确定任意目标偏好的适当正则化权重。各种多目标数据集上的实证结果展示了我们的方法在解决离线多目标强化学习问题方面的能力。

Jan, 2024

在线硬约束多任务学习

本文探讨了多任务在线学习，当决策者需要同时处理 M 个任务时。M 个任务是相关的，我们给出了此类问题的一个一般可行解，并提供了计算上有效的方法来选择行动，本质上是将其化简为在线最短路径问题。我们还讨论了问题的 “跟踪” 和 “劫掠” 版本，并扩展了模型，包括非可加全局损失和无穷集合的任务。

Feb, 2009

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

基于在线离线实验的策略搜索贝叶斯优化

使用离线模拟器并应用多任务贝叶斯优化改进在线机器学习系统的方法，较之仅进行在线实验，能够更有效地探索复杂、多维度的策略空间，并通过学习曲线表明离线实验可以显著提高在线实验结果的准确性和优化速度。

Apr, 2019