批量策略优化中的模型选择

Dec, 2021

Model Selection in Batch Policy Optimization

Jonathan N. Lee, George Tucker, Ofir Nachum, Bo Dai

TL;DR在上下文 bandit 设置下，通过识别任何模型选择算法应优化折衷的三个错误源（近似误差，统计复杂性和覆盖率），我们研究了批次策略优化中的模型选择问题。尽管无法同时保证所有三个源的保证，但松弛其中任何一个错误源均可实现近似于预测准确性和模型复杂度的保证。

Abstract

We study the problem of model selection in batch policy optimization: given a fixed, partial-feedback dataset and $M$ model classes, learn a policy with performance that is competitive with the policy derived fro

model selection policy optimization linear model classes contextual bandit setting dataset shift

发现论文，激发创造

上下文臂选择模型

介绍了在上下文密集应用中的模型选择问题及其解决方案，该方案适用于线性上下文密集应用，并在先验知识下达到了较低的后验概率。

Jun, 2019

关于批化策略优化算法的最优性

提出一种称为置信回报指数算法的类别与加权极小极大准则，用于解决有限武装随机赌徒问题中的批处理策略优化。研究表明，任何置信回报指数算法都是极小极大优的，无论乐观、悲观还是中性。同时，我们还演示了如何使用加权极小极大准则来证明通常用于批处理策略优化的悲观原则。

Apr, 2021

开放问题：上下文赌博机的模型选择

这篇论文探讨了在上下文赌博学习中，是否可能采用模型选择算法，以适应最佳假设类的复杂性，并寻求类似于统计学习中的算法保证。

Jun, 2020

多任务学习的任务选择策略

本文评估了一些常见任务选择策略在合成赌博式设置和 GLUE 自然语言理解基准测试上的性能，并将任务选择策略学习与自动课程学习和离线评估现有工作联系起来，提出了一种基于反事实估计的方法，在我们的实验设置中提高了模型性能。

Jul, 2019

通过离线神谕在具有多个类别的情境下选择最优模型的方法

本研究提出了一种新的算法，用于解决上下文 Bandit 问题中的模型选择问题，该算法通过离线模型选择预言机的方式平衡偏差 - 方差交换和探索 - 利用交换，并具有与回归模型选择相同的计算要求。

Jun, 2021

线性赌博机中的 Pareto 最优模型选择

本文是一篇关于线性臂选模型选择的研究，提出了一种 Pareto 最优算法，能实现基于已知维度的较小假设集来平衡探索和开发，并且能够匹配模型选择问题的最低界限。

Feb, 2021

分布式鲁棒批次情境式赌博机

本文提出了一种利用历史观测数据解决偏移环境的分布鲁棒性策略学习算法，该算法通过提出的策略评估方案和基于均匀收敛理论的性能保证实现对敌对干扰和未知协变量转移的稳健性，并在真实世界数据集中展示了该方法的应用。

Jun, 2020

线性上下文强化学习模型选择的通用自适应算法

在上下文强化学习中进行模型选择是一项重要的补充问题。本研究提出了一些新的算法，这些算法可以在数据自适应的情况下进行探索，并提供模型选择保证。

Nov, 2021

何时信任你的模型：基于模型的策略优化

本文研究模型在强化学习算法中的使用，旨在解决生成数据的容易程度与模型生成数据的偏差之间的平衡问题。作者提出了一种基于模型的强化学习算法，并探讨了模型在策略优化中的作用。实践中，作者发现模型生成的在线策略数据总是不如真实的离线数据。然而，通过将模型泛化能力的经验估计纳入到分析中，可以证明模型的使用是合理的。最后，作者展示了一种简单的方法，使用从真实数据中分支的短模型生成滚动数据，具有比其他基于模型的方法更好的样本效率，可以匹配最佳无模型算法的渐近性能，并能处理其它基于模型的算法不能处理的问题。

Jun, 2019

情境随机赌博问题中的模型选择

研究如何在随机环境中进行赌徒模型选择，提出一种基于元算法的方法，可以与一般类别的基本算法和不同类型的对抗性元算法一起使用，同时发展一种新颖的通用平滑变换的算法来优化模型选择问题。

Mar, 2020