混淆核化赌博机的双重仪器方法

Sep, 2022

Dual Instrumental Method for Confounded Kernelized Bandits

Xueping Gong, Jiheng Zhang

TL;DR本论文中，我们解决了在contextual bandit问题中噪声被confounder影响的问题，引入了潜在的confounder，并且应用了双重工具变量回归来解决reward function估计中的偏差问题，设计出基于理论保障的计算效率高且regret-optimal的算法。

Abstract

The contextual bandit problem is a theoretically justified framework with wide applications in various fields. While the previous study on this problem usually requires independence between noise and contexts, our work considers a more sensible setting where the noise becomes a

发现论文，激发创造

核化情境赌博机的有限时间分析

本文提出了一种基于KernelUCB算法在具有相似性但动作数量巨大的问题中进行在线奖励最大化，适用于重现核希尔伯特空间中的任意线性奖励函数。

Sep, 2013

具备回归神谕的实用上下文强化学习

本研究提出了一种新的技术，将可实现性方法的经验和计算优势与不可知方法的灵活性相结合，借助回归预测器的可用性来进行算法优化，实现了任何分布假设下出色的表现。

Mar, 2018

半参数情境赌博机

该论文研究了半参数上下文赌博机问题，设计了新的算法来解决非线性混淆影响下的奖励估计问题，并通过实证评估证明了该算法的有效性。

Mar, 2018

绕开怪物：一种更快、更简单的实现环境下上下文二项式算法

该论文考虑了具有普适性假设的（随机性）上下文赌博问题，设计了一种快速、简单的算法，在所有$T$回合中通过对离线回归神谕的$logT$次调用实现了统计优化遗憾。我们的结果提供了第一个从上下文赌徒到离线回归的通用和最优化简化，解决了上下文赌徒文献中的一个重要开放问题。我们的结果表明，离线回归中的任何进展都将立即在上下文赌客中进行统计和计算翻译。

Mar, 2020

奖励学习作为双非参数赌博机：最佳设计和标度律

该文提出了一个理论框架来探究奖励学习和相关最优实验设计问题，利用非参数函数来模拟奖励模型和策略，借助岭回归算法开展无渐进过度风险边界分析，以此解决最优实验设计问题。文中应用这个理论框架探究高斯过程赌博优化问题，与泊松核已有研究进行了比较。

Feb, 2023

具有混淆偏差和缺失观察数据的情境赌博政策学习的统一框架

研究离线情境下的由于未观测某些条件变量和数据缺失而引起的偏差和低效问题，提出了一种名为CAP的新算法，在数据的基础上形成奖励函数、建立置信区间，并通过悲观主义的方式贪心地采取行动来学习最优策略。

Mar, 2023

核化赌博机中适应误差核正则性

研究了在核化赌博机问题中，在未知正则性的情况下学习算法是否能够自适应于相关核函数的正则性。通过研究转化不变核的正则性自适应性，我们推导出自适应性的下限，证明不可能在具有不同规则性的RKHS对中同时实现最优累计遗憾。通过连接在不同功能空间中自适应的统计困难性，我们展示了这一下限的紧密性。

Apr, 2023

基于核 $ε$-Greedy策略的情境赌博机

该研究提出了一种基于核的上下文臂策略，使用在线加权核岭回归估算器对奖励函数进行估算，并在一定条件下证明了该估计器的一致性，同时针对任何核和相应的RKHS均可实现次线性遗憾率和最优遗憾率。

Jun, 2023

部分可观察情境下的汤普森抽样

基于观测数据的贝叶斯泰普森抽样策略成功地平衡了探索和利用，通过引入新的鞅技术和浓厚不等式解决了部分观测相关随机变量的问题，为研究其他具有上下文信息和部分观测的决策问题铺平了道路。

Feb, 2024

开放问题：Bernoulli奖励的核化多臂赌博机紧密界限

该研究论文讨论了核化赌博机在观测到服从伯努利分布的实现时的优化问题，并提出了相应的开放性问题。

Jul, 2024