自适应数据采集的政策学习

May, 2021

Policy Learning with Adaptively Collected Data

Ruohan Zhan, Zhimei Ren, Susan Athey, Zhengyuan Zhou

TL;DR本文探讨在自适应数据收集环境下如何使用基于加权的估计算法来学习最优策略，提出了基于广义增强的倾向性加权（AIPW）估计器的算法，并建立了有限样本遗憾上限，证明最优权重方案下，算法即使在减少探索数据的情况下也能实现最小化的遗憾保证。

Abstract

Learning optimal policies from historical data enables personalization in a wide variety of applications including healthcare, digital recommendations, and online education. The growing policy learning literature focuses on settings where the data collection rule stays fixed throughout the experiment. However, →

optimal policy adaptive data collection inverse propensity weighting regret upper bound minimax rate

发现论文，激发创造

平衡策略评估与学习

提出了一种基于平衡的权重方法来评估和学习个性化决策策略，该方法适用于利用历史记录来进行个性化医疗和互联网广告，该方法明显优于现有方法。

May, 2017

分布式鲁棒批次情境式赌博机

本文提出了一种利用历史观测数据解决偏移环境的分布鲁棒性策略学习算法，该算法通过提出的策略评估方案和基于均匀收敛理论的性能保证实现对敌对干扰和未知协变量转移的稳健性，并在真实世界数据集中展示了该方法的应用。

Jun, 2020

从观测数据中学习最优策略

本文通过控制实验方法和观察性数据建立了最优决策的理论模型，并利用域对抗神经网络的方法进行决策选择，从而在处理缺失反事实和选择偏差方面取得了较好的效果。

Feb, 2018

离线多操作策略学习：泛化与优化

本文主要研究基于观测数据的离线多行动策略学习问题，特别地，该策略可能需要遵守预算约束或属于受限策略类，如决策树，提出了一个算法实现，能够达到渐近最小化风险后悔，这是在多行动设置中的首次结果，对于现有的学习算法有大幅度的性能提升。该文提出了两种不同的方法来解决当策略被限制为采用决策树形式时出现的附加计算挑战，一种方法使用混合整数方案，另一种方法使用基于树搜索的算法。

Oct, 2018

利用观测数据进行政策学习

本文提出了一种新的方法来优化二分类或连续处理的细微变化，该方法可以利用观测数据，其中因果效应使用各种策略（包括可观察的选择和仪器变量）进行识别，并建立了一种针对选择谁进行治疗的算法，并确定了其产生的政策渐近效用后悔的强有力保证。

Feb, 2017

上下文固定预算的最佳臂识别：具有策略学习的自适应实验设计

个性化治疗建议、最佳治疗方法鉴定、上下文信息、自适应实验以及策略学习是这篇研究论文的关键词，通过推荐最佳治疗方法的决策策略获得最小的预期简单后悔，同时为政策学习、实验设计和自适应福利最大化提供了新的方法。

Jan, 2024

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

增强模仿学习策略的在线适应性

我们提出通过在线调整来弥补模仿学习中的失败，我们的方法将预训练策略的动作建议与专家记录的相关经验相结合，通过适应的行为更好地模仿专家策略，实验表明适应的智能体表现比纯模仿学习的对应体更好，特别是在基础策略灾难性失败时，适应的智能体仍然能够实现合理的性能。

Jun, 2024

自适应数据采集的增强学习离线策略评估

本文针对相对于通常的数据收集方式更加广义的数据收集方式下离线 RL 算法的理论保证问题进行研究，并探讨 TMIS Offline Policy Evaluation 在 tabular MDPs 下的最小最优保证问题及实验分析。

Jun, 2023

MetaAugment: 样本感知数据增强策略学习

本文提出了一种以样本为基础的数据增强策略，采用元学习解决数据增强效果与样本间变异之间的平衡问题，并在 CIFAR-10/100、Omniglot、ImageNet 等数据集上通过实验证明了其优越性能。

Dec, 2020