Jun, 2023
高维情境臂材料问题无需稀疏
High-dimensional Contextual Bandit Problem without Sparsity
Junpei Komiyama, Masaaki Imaizumi
TL;DR研究高维线性情境赌博问题,提出了探索后承诺(EtC)算法和自适应探索后承诺(AEtC)算法,通过分析表明这些算法可以在探索和利用之间找到最佳平衡,最终对算法的性能进行了评估。
Abstract
In this research, we investigate the high-dimensional linear contextual
bandit problem where the number of features $p$ is greater than the budget $T$,
or it may even be infinite. Differing from the majority of previous works in
this field, we do not impose sparsity on the regression coefficients. Instead,
we rely on recent findings on →
high-dimensional linear contextual bandit problemoverparameterized modelsexplore-then-commit algorithmadaptive explore-then-commit algorithmperformance analysis
发现论文,激发创造
高维线性多臂赌博机与背包问题
研究如何在高维度环境下应用稀疏估计和在线学习算法改进上下文强化学习中的多臂老虎机与背包问题,通过联合在线估计和原始 - 对偶框架,控制背包容量,从而取得了特征维度对数级依赖的次线性遗憾,同时在数据贫瘠和数据丰富情况下实现了最优遗憾结果。
Nov, 2023
上下文推荐系统中的估计问题
通过整合因果推断文献中的平衡方法,开发了参数和非参数上下文强化学习算法来实现对初始估计偏差问题的更少敏感性,并在域上提供了带有平衡的上下文强化学习的第一个遗憾界分析
Nov, 2017
稀疏不可知 Lasso Bandit
本文提出了一种算法来解决随机上下文赌博机问题,该问题中特征向量的维数可能很大,但仅有一个小的稀疏特征子集会影响奖励函数,该算法可以在不需要先前了解稀疏度的情况下使用,并在温和条件下,确立了性能方面的紧密后悔界限,同时,我们全面评估了我们提出的算法的性能,并表明即使将正确的稀疏度指数暴露给现有方法,但将其保持对我们算法隐藏,我们的算法也能始终优于现有方法。
Jul, 2020
平衡线性情境臂
本篇论文针对强异质性或复杂结果模型容易引起难以估计问题的上下文匹配算法,通过整合因果推断文献中的平衡方法来降低其偏差估计的问题,并对具有平衡的线性上下文匹配算法进行损失分析,从而展示了其在多个监督学习数据集上的实用优势以及在初级训练数据中模拟模型错误和偏见的工作中所展现出的优越性。
Dec, 2018
双重高维情境赌臂:联合组合定价的可解释模型
我们提出了一种基于上下文强化学习的联合组合和定价方法,该方法可以在零售业务中解决选品问题和定价问题,通过计算和真实案例研究证明了该方法的有效性。
Sep, 2023
线性上下文强化学习模型选择的通用自适应算法
在上下文强化学习中进行模型选择是一项重要的补充问题。本研究提出了一些新的算法,这些算法可以在数据自适应的情况下进行探索,并提供模型选择保证。
Nov, 2021