自适应数据采集的政策学习
本文提出了一种利用历史观测数据解决偏移环境的分布鲁棒性策略学习算法,该算法通过提出的策略评估方案和基于均匀收敛理论的性能保证实现对敌对干扰和未知协变量转移的稳健性,并在真实世界数据集中展示了该方法的应用。
Jun, 2020
本文主要研究基于观测数据的离线多行动策略学习问题,特别地,该策略可能需要遵守预算约束或属于受限策略类,如决策树,提出了一个算法实现,能够达到渐近最小化风险后悔,这是在多行动设置中的首次结果,对于现有的学习算法有大幅度的性能提升。该文提出了两种不同的方法来解决当策略被限制为采用决策树形式时出现的附加计算挑战,一种方法使用混合整数方案,另一种方法使用基于树搜索的算法。
Oct, 2018
本文提出了一种新的方法来优化二分类或连续处理的细微变化,该方法可以利用观测数据,其中因果效应使用各种策略(包括可观察的选择和仪器变量)进行识别,并建立了一种针对选择谁进行治疗的算法,并确定了其产生的政策渐近效用后悔的强有力保证。
Feb, 2017
个性化治疗建议、最佳治疗方法鉴定、上下文信息、自适应实验以及策略学习是这篇研究论文的关键词,通过推荐最佳治疗方法的决策策略获得最小的预期简单后悔,同时为政策学习、实验设计和自适应福利最大化提供了新的方法。
Jan, 2024
本文介绍了一种名为自适应策略学习的框架,可用于离线学习与在线学习的融合,并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量,进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明,该算法可以在离线数据集质量较差的情况下实现高样本效率。
Mar, 2023
我们提出通过在线调整来弥补模仿学习中的失败,我们的方法将预训练策略的动作建议与专家记录的相关经验相结合,通过适应的行为更好地模仿专家策略,实验表明适应的智能体表现比纯模仿学习的对应体更好,特别是在基础策略灾难性失败时,适应的智能体仍然能够实现合理的性能。
Jun, 2024
本文针对相对于通常的数据收集方式更加广义的数据收集方式下离线 RL 算法的理论保证问题进行研究,并探讨 TMIS Offline Policy Evaluation 在 tabular MDPs 下的最小最优保证问题及实验分析。
Jun, 2023
本文提出了一种以样本为基础的数据增强策略,采用元学习解决数据增强效果与样本间变异之间的平衡问题,并在 CIFAR-10/100、Omniglot、ImageNet 等数据集上通过实验证明了其优越性能。
Dec, 2020