高维情境臂材料问题无需稀疏

Jun, 2023

High-dimensional Contextual Bandit Problem without Sparsity

Junpei Komiyama, Masaaki Imaizumi

TL;DR研究高维线性情境赌博问题，提出了探索后承诺（EtC）算法和自适应探索后承诺（AEtC）算法，通过分析表明这些算法可以在探索和利用之间找到最佳平衡，最终对算法的性能进行了评估。

Abstract

In this research, we investigate the high-dimensional linear contextual bandit problem where the number of features $p$ is greater than the budget $T$, or it may even be infinite. Differing from the majority of previous works in this field, we do not impose sparsity on the regression coefficients. Instead, we rely on recent findings on →

high-dimensional linear contextual bandit problem overparameterized models explore-then-commit algorithm adaptive explore-then-commit algorithm performance analysis

发现论文，激发创造

高维线性多臂赌博机与背包问题

研究如何在高维度环境下应用稀疏估计和在线学习算法改进上下文强化学习中的多臂老虎机与背包问题，通过联合在线估计和原始 - 对偶框架，控制背包容量，从而取得了特征维度对数级依赖的次线性遗憾，同时在数据贫瘠和数据丰富情况下实现了最优遗憾结果。

Nov, 2023

上下文赌博机的超参数调整

本文探讨了在线学习环境下，通过使用赌博机算法来自动确定探索参数，优化上下文赌博算法探索与利用的平衡问题。

May, 2020

上下文推荐系统中的估计问题

通过整合因果推断文献中的平衡方法，开发了参数和非参数上下文强化学习算法来实现对初始估计偏差问题的更少敏感性，并在域上提供了带有平衡的上下文强化学习的第一个遗憾界分析

Nov, 2017

半参数情境赌博机

该论文研究了半参数上下文赌博机问题，设计了新的算法来解决非线性混淆影响下的奖励估计问题，并通过实证评估证明了该算法的有效性。

Mar, 2018

稀疏不可知 Lasso Bandit

本文提出了一种算法来解决随机上下文赌博机问题，该问题中特征向量的维数可能很大，但仅有一个小的稀疏特征子集会影响奖励函数，该算法可以在不需要先前了解稀疏度的情况下使用，并在温和条件下，确立了性能方面的紧密后悔界限，同时，我们全面评估了我们提出的算法的性能，并表明即使将正确的稀疏度指数暴露给现有方法，但将其保持对我们算法隐藏，我们的算法也能始终优于现有方法。

Jul, 2020

平衡线性情境臂

本篇论文针对强异质性或复杂结果模型容易引起难以估计问题的上下文匹配算法，通过整合因果推断文献中的平衡方法来降低其偏差估计的问题，并对具有平衡的线性上下文匹配算法进行损失分析，从而展示了其在多个监督学习数据集上的实用优势以及在初级训练数据中模拟模型错误和偏见的工作中所展现出的优越性。

Dec, 2018

上下文臂选择模型

介绍了在上下文密集应用中的模型选择问题及其解决方案，该方案适用于线性上下文密集应用，并在先验知识下达到了较低的后验概率。

Jun, 2019

一种新的非平稳情境赌博算法：高效、最优和免参数

提出了首个无需参数的、高效的、动态遗憾最优的上下文赌博算法，通过引入回放阶段来保持对非平稳的探索，并在探索和开发之间保持良好的平衡。

Feb, 2019

双重高维情境赌臂：联合组合定价的可解释模型

我们提出了一种基于上下文强化学习的联合组合和定价方法，该方法可以在零售业务中解决选品问题和定价问题，通过计算和真实案例研究证明了该方法的有效性。

Sep, 2023

线性上下文强化学习模型选择的通用自适应算法

在上下文强化学习中进行模型选择是一项重要的补充问题。本研究提出了一些新的算法，这些算法可以在数据自适应的情况下进行探索，并提供模型选择保证。

Nov, 2021