本文提出了第一个在线连续超参数调整框架,即 CDT 框架,用于学习最佳超参数配置,可以在不预设候选超参数组合的情况下调整上下文 bandit 算法,其中使用 Zooming TS 算法进行探索和重启技术来避免环境切换,并提供更好的实验结果。
Feb, 2023
我们设计了一种渐近上限最优算法,并充分利用线性结构和精确探索,从而减少了在多种合理情境下的失算,数值结果表明,与其他基准算法相比,我们的方法大大减少了失算。
Oct, 2019
本篇论文针对强异质性或复杂结果模型容易引起难以估计问题的上下文匹配算法,通过整合因果推断文献中的平衡方法来降低其偏差估计的问题,并对具有平衡的线性上下文匹配算法进行损失分析,从而展示了其在多个监督学习数据集上的实用优势以及在初级训练数据中模拟模型错误和偏见的工作中所展现出的优越性。
Dec, 2018
通过整合因果推断文献中的平衡方法,开发了参数和非参数上下文强化学习算法来实现对初始估计偏差问题的更少敏感性,并在域上提供了带有平衡的上下文强化学习的第一个遗憾界分析
Nov, 2017
本文研究线性情境赌徒算法问题,重新审视贪心算法的性能,通过平滑分析证明,即使情境可以由对手选择,对对手选择进行小干扰就足以实现 “无悔算法”,这表明在线性设置中,“普遍地”(即在稍微扰动的环境中)探索和开发不必在冲突。
Jan, 2018
本文介绍了一种上下文赌博算法,它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略,而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。
May, 2018
本文是对背景上下文算法的一个全面的研究和综述,重点关注依靠监督学习的优化原则的实用方法,并利用大量的监督学习数据集进行了实证评估。研究发现,最近使用不确定性乐观主义的方法在整体上效果最好,其次是通过上下文多样性暗示进行探索的简单贪心基线。
Feb, 2018
本文提出了一种新的上下文强化学习算法 NeuralBandit,它不需要对上下文和奖励的稳定性提出假设。该算法使用多个神经网络来建模上下文的价值,并提出了两种基于多专家方法的变体来在线选择多层感知器的参数。该算法在大型数据集上进行了测试,包括奖励稳定和不稳定的情况,并取得了成功的效果。
Sep, 2014
本文主要研究机遇上下文奖励问题,提出了自适应上界置信区间算法(AdaLinUCB),并实现了 O((log T )^ 2)的问题相关遗憾上界证明。
Feb, 2019
本文提出了一个非线性深度学习框架,用于处理上下文多臂赌博机问题,并通过 Thompson sampling 方法来解决探索与开发的取舍。我们采用贝叶斯神经网络的权重后验分布来解决 dropout 和采样之间的联系,并通过自适应学习 dropout 率从而自动调整探索水平。在两个任务上,我们的方法相较于其他方法用于减少损失,并将其应用于 HubSpot 的市场优化问题。
Jul, 2018