上下文赌博机的超参数调整

May, 2020

Hyper-parameter Tuning for the Contextual Bandit

Djallel Bouneffouf, Emmanuelle Claeys

TL;DR本文探讨了在线学习环境下，通过使用赌博机算法来自动确定探索参数，优化上下文赌博算法探索与利用的平衡问题。

Abstract

We study here the problem of learning the exploration exploitation trade-off in the contextual bandit problem with linear reward function

contextual bandit problem linear reward function exploration exploitation trade-off online learning multi-armed bandit algorithm

发现论文，激发创造

在线持续上下文推荐系统超参数优化

本文提出了第一个在线连续超参数调整框架，即 CDT 框架，用于学习最佳超参数配置，可以在不预设候选超参数组合的情况下调整上下文 bandit 算法，其中使用 Zooming TS 算法进行探索和重启技术来避免环境切换，并提供更好的实验结果。

Feb, 2023

线性上下文臂优化中的自适应探索

我们设计了一种渐近上限最优算法，并充分利用线性结构和精确探索，从而减少了在多种合理情境下的失算，数值结果表明，与其他基准算法相比，我们的方法大大减少了失算。

Oct, 2019

平衡线性情境臂

本篇论文针对强异质性或复杂结果模型容易引起难以估计问题的上下文匹配算法，通过整合因果推断文献中的平衡方法来降低其偏差估计的问题，并对具有平衡的线性上下文匹配算法进行损失分析，从而展示了其在多个监督学习数据集上的实用优势以及在初级训练数据中模拟模型错误和偏见的工作中所展现出的优越性。

Dec, 2018

上下文推荐系统中的估计问题

通过整合因果推断文献中的平衡方法，开发了参数和非参数上下文强化学习算法来实现对初始估计偏差问题的更少敏感性，并在域上提供了带有平衡的上下文强化学习的第一个遗憾界分析

Nov, 2017

线性上下文贪婪算法问题的平滑分析

本文研究线性情境赌徒算法问题，重新审视贪心算法的性能，通过平滑分析证明，即使情境可以由对手选择，对对手选择进行小干扰就足以实现 “无悔算法”，这表明在线性设置中，“普遍地”（即在稍微扰动的环境中）探索和开发不必在冲突。

Jan, 2018

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

上下文赌博大比拼

本文是对背景上下文算法的一个全面的研究和综述，重点关注依靠监督学习的优化原则的实用方法，并利用大量的监督学习数据集进行了实证评估。研究发现，最近使用不确定性乐观主义的方法在整体上效果最好，其次是通过上下文多样性暗示进行探索的简单贪心基线。

Feb, 2018

用于上下文强化学习问题的神经网络委员会

本文提出了一种新的上下文强化学习算法 NeuralBandit，它不需要对上下文和奖励的稳定性提出假设。该算法使用多个神经网络来建模上下文的价值，并提出了两种基于多专家方法的变体来在线选择多层感知器的参数。该算法在大型数据集上进行了测试，包括奖励稳定和不稳定的情况，并取得了成功的效果。

Sep, 2014

AdaLinUCB: 基于上下文的赌博机的机会学习

本文主要研究机遇上下文奖励问题，提出了自适应上界置信区间算法（AdaLinUCB），并实现了 O（（log T ）^ 2）的问题相关遗憾上界证明。

Feb, 2019

深度上下文多臂赌博机

本文提出了一个非线性深度学习框架，用于处理上下文多臂赌博机问题，并通过 Thompson sampling 方法来解决探索与开发的取舍。我们采用贝叶斯神经网络的权重后验分布来解决 dropout 和采样之间的联系，并通过自适应学习 dropout 率从而自动调整探索水平。在两个任务上，我们的方法相较于其他方法用于减少损失，并将其应用于 HubSpot 的市场优化问题。

Jul, 2018