开放问题：上下文赌博机的模型选择

Jun, 2020

Open Problem: Model Selection for Contextual Bandits

Dylan J. Foster, Akshay Krishnamurthy, Haipeng Luo

TL;DR这篇论文探讨了在上下文赌博学习中，是否可能采用模型选择算法，以适应最佳假设类的复杂性，并寻求类似于统计学习中的算法保证。

Abstract

In statistical learning, algorithms for model selection allow the learner to adapt to the complexity of the best →

发现论文，激发创造

在上下文强化学习中进行模型选择是一项重要的补充问题。本研究提出了一些新的算法，这些算法可以在数据自适应的情况下进行探索，并提供模型选择保证。

Nov, 2021

介绍了在上下文密集应用中的模型选择问题及其解决方案，该方案适用于线性上下文密集应用，并在先验知识下达到了较低的后验概率。

Jun, 2019

研究如何在随机环境中进行赌徒模型选择，提出一种基于元算法的方法，可以与一般类别的基本算法和不同类型的对抗性元算法一起使用，同时发展一种新颖的通用平滑变换的算法来优化模型选择问题。

Mar, 2020

本文是对背景上下文算法的一个全面的研究和综述，重点关注依靠监督学习的优化原则的实用方法，并利用大量的监督学习数据集进行了实证评估。研究发现，最近使用不确定性乐观主义的方法在整体上效果最好，其次是通过上下文多样性暗示进行探索的简单贪心基线。

Feb, 2018

本研究提出了一种新的算法，用于解决上下文 Bandit 问题中的模型选择问题，该算法通过离线模型选择预言机的方式平衡偏差 - 方差交换和探索 - 利用交换，并具有与回归模型选择相同的计算要求。

Jun, 2021

本篇论文针对强异质性或复杂结果模型容易引起难以估计问题的上下文匹配算法，通过整合因果推断文献中的平衡方法来降低其偏差估计的问题，并对具有平衡的线性上下文匹配算法进行损失分析，从而展示了其在多个监督学习数据集上的实用优势以及在初级训练数据中模拟模型错误和偏见的工作中所展现出的优越性。

Dec, 2018

本文提出了一个基于上限置信区间的多任务学习算法框架，用于处理具有高任务相似性的上下文型臂带问题，并揭示了此算法在数据中高任务相似性的优势。

May, 2017

该研究综述了几种随机和对抗性的上下文 Bandit 算法，分析了每个算法的假设和遗憾界。

Aug, 2015

提供了第一个通用的、效率高的算法，用于解决序列决策中存在的、现有算法在大型连续行动空间中表现不佳的问题，该算法基于（i）监督学习和（ii）行动空间的优化的计算预言，并显示其比标准基线方法表现更好。

Jul, 2022

我们考虑了上下文强盗问题，在每个时间点上，代理只能访问上下文的嘈杂版本和误差方差（或该方差的估计）。我们提出了第一个在线算法，与适当的基准相比，在此设置中具有亚线性遗憾，其关键思想是将经典统计中的测量误差模型延伸到在线决策情境中，这是一个非常复杂的问题，因为策略依赖于嘈杂的上下文观察。

Jul, 2023