一般情境强化学习模型选择的帕累托前沿

Oct, 2021

一般情境强化学习模型选择的帕累托前沿

The Pareto Frontier of model selection for general Contextual Bandits

Teodor V. Marinov, Julian Zimmert

TL;DR研究模型选择中遇到的问题，证明了在_nested policy classes_中，无论时限和复杂度如何权衡，都不能同时得到所有策略的最优算法保证，并且在纯随机环境下，无法获得所需的结果；同时在_full-information games_中也解决了一个开放性问题。

Abstract

Recent progress in model selection raises the question of the fundamental limits of these techniques. Under specific scrutiny has been model selection for general →

model selection contextual bandits policy classes complexity pareto frontier

发现论文，激发创造

上下文臂选择模型

介绍了在上下文密集应用中的模型选择问题及其解决方案，该方案适用于线性上下文密集应用，并在先验知识下达到了较低的后验概率。

Jun, 2019

线性赌博机中的 Pareto 最优模型选择

本文是一篇关于线性臂选模型选择的研究，提出了一种 Pareto 最优算法，能实现基于已知维度的较小假设集来平衡探索和开发，并且能够匹配模型选择问题的最低界限。

Feb, 2021

多项式 Logit 上下文强化学习：可证优化与实用性

本研究考虑了基于多项式逻辑回归选择模型的序贯选择问题，提出了基于上界置信度算法的解法，并得到了近似最优的遗憾上界；进一步，我们研究了该模型的极大似然估计量的置信度界，为实际应用提供了理论指导。

Mar, 2021

情境随机赌博问题中的模型选择

研究如何在随机环境中进行赌徒模型选择，提出一种基于元算法的方法，可以与一般类别的基本算法和不同类型的对抗性元算法一起使用，同时发展一种新颖的通用平滑变换的算法来优化模型选择问题。

Mar, 2020

线性上下文强化学习模型选择的通用自适应算法

在上下文强化学习中进行模型选择是一项重要的补充问题。本研究提出了一些新的算法，这些算法可以在数据自适应的情况下进行探索，并提供模型选择保证。

Nov, 2021

最佳模型选择

本文研究带有嵌套策略类别的赌场情境中的模型选择问题，旨在获得同时具备敌对和随机（“双赢”）的高概率遗憾保证。我们的方法要求每个基本学习器都带有可能或不可能持续的候选遗憾边界，同时，我们的元算法根据保持基本学习器的候选遗憾边界平衡的时间表播放每个基本学习器，直到它们被发现违反了保证。我们开发了谨慎的误规范测试，专门设计用于混合上述模型选择标准和利用环境（可能是良性）性质的能力。我们恢复了 CORRAL 算法在敌对环境下的模型选择保证，但在嵌套敌对线性赌徒的情况下，具有实现高概率遗憾边界的额外优势。更重要的是，我们的模型选择结果同时在间隙假设下在随机环境中保持。这些是第一个在（线性）赌徒情况下，在进行模型选择的情况下实现双赢（随机和敌对）保证的理论结果。

Jun, 2022

广义线性情境赌博机的可证明最优算法

本文提出了针对广义线性情境臂的上界置信度算法，实现了与众不同的性能，同时我们还分析了更简单的上界置信度算法，在特定情况下证明了该算法具有最优的后悔。

Feb, 2017

开放问题：上下文赌博机的模型选择

这篇论文探讨了在上下文赌博学习中，是否可能采用模型选择算法，以适应最佳假设类的复杂性，并寻求类似于统计学习中的算法保证。

Jun, 2020

通过离线神谕在具有多个类别的情境下选择最优模型的方法

本研究提出了一种新的算法，用于解决上下文 Bandit 问题中的模型选择问题，该算法通过离线模型选择预言机的方式平衡偏差 - 方差交换和探索 - 利用交换，并具有与回归模型选择相同的计算要求。

Jun, 2021

线性上下文强化学习的最佳算法

我们研究了针对 K 臂线性情境赌博机的最佳算法，无需先前对环境有所了解，在敌对和随机的情境下都能够提供接近最优的后悔边界。

Dec, 2023