具有延迟奖励的上下文多臂赌博机的随机分配与非参数估计

Feb, 2019

具有延迟奖励的上下文多臂赌博机的随机分配与非参数估计

Randomized Allocation with Nonparametric Estimation for Contextual Multi-Armed Bandits with Delayed Rewards

Sakshi Arya, Yuhong Yang

TL;DR研究带有协变量的多臂赌博问题，在可能存在奖励延迟的情况下，通过对延迟的概率分布进行一些温和假设，并使用适当的随机选择武器策略，证明了该策略的强一致性。

Abstract

We study a multi-armed bandit problem with covariates in a setting where there is a possible delay in observing the rewards. Under some mild assumptions on the probability distributions for the →

multi-armed bandit covariates delays randomization consistent

发现论文，激发创造

具有不受限制的延迟分布的随机多臂赌博机

该研究探讨具有随机延迟的随机多臂赌博问题，在考虑了奖励相关延迟和奖励无关延迟两种情况下，提出了接近最优的算法，并在延迟分布的分位数上增加了附加依赖性，而不需要假设延迟分布来自任何参数化的分布族，还允许无限延迟的情况。

Jun, 2021

非参数随机情境臂机

探讨 K-armed bandit 问题下的 noisy reward，提出了一种简单实用的算法（kNN-UCB），并得到了紧密的 top-arm identification 和 sublinear regret 边界，并讨论了该算法的全局 intrisinic dimension 和 ambient dimension 的 regret 边界，同时介绍了对于无限武装情境下 bandit 算法的扩展和实验证明了算法在多种任务上的优越性。

Jan, 2018

具有臂依赖性延迟的随机赌博机

本文研究随机延迟赌博机问题，提出了一种基于 UCB 算法的简单但高效的算法 ——PatientBandits，通过针对延迟赋予限制的方法，得出不同类型问题的效果下限和上限。

Jun, 2020

具有协变量的非参数贝叶斯赌博机

本文对一类赌博机问题进行了研究，提出了一种新算法，结合非参数统计和传统赌博机算法方法，在最大化累积预期收益的目标下，取得了与理论下界相同的性能，同时具有良好的适应性。

Mar, 2010

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

半参数情境赌博机

该论文研究了半参数上下文赌博机问题，设计了新的算法来解决非线性混淆影响下的奖励估计问题，并通过实证评估证明了该算法的有效性。

Mar, 2018

上下文阻塞赌博机

该论文研究了一种新的上下文多臂赌博问题，其中玩家在每个时间步观察独立采样的上下文，以确定每个臂的平均回报，但播放一个臂会在未来的一定时间步内阻止它。作者提出了基于 UCB 的算法来解决这个问题，同时介绍了延迟利用和机会抽样的概念。

Mar, 2020

上下文推荐系统中的估计问题

通过整合因果推断文献中的平衡方法，开发了参数和非参数上下文强化学习算法来实现对初始估计偏差问题的更少敏感性，并在域上提供了带有平衡的上下文强化学习的第一个遗憾界分析

Nov, 2017

多臂老虎机实验中的适应性和混淆

本篇论文研究以往文献未解决的问题，提出了一种新的基于 Thompson 采样的算法（被称为去混淆 Thompson 采样），该算法在易于稳定的情况下发挥优越效率，在困难的不稳定情况下也表现出出人意料的韧性，可在具有不稳定上下文影响的武器性能的智能探险算法中应用。

Feb, 2022

基于延迟反馈的预算推荐

在有限的资源和延迟反馈的情况下，研究了延迟反馈对约束上下文多臂赌博问题的影响，并开发了一种决策策略（DORAL），以优化资源在具有依赖延迟反馈的上下文多臂赌博问题中的使用。

May, 2024