延迟转化的随机强化学习赌博机模型

Jun, 2017

延迟转化的随机强化学习赌博机模型

Stochastic Bandit Models for Delayed Conversions

Claire Vernade, Olivier Cappé, Vianney Perchet

TL;DR这篇文章提出并研究了一种基于 Chapelle 的框架的新的随机多臂赌博模型，其中每种操作可能会触发一个将以随机延迟发生的未来奖励，并提供了一些性能下界和基于 UCB 和 KLUCB 框架的两个简单而有效的算法。

Abstract

online advertising and product recommendation are important domains of applications for multi-armed bandit methods. In these fields, the r

multi-armed bandit methods online advertising product recommendation stochastic delay ucb algorithm

发现论文，激发创造

不耐烦赌徒：无需延迟的长期优化

在在线平台中，推荐系统是一个普遍存在的功能，越来越多地被明确要求增加用户的长期满意度。本研究主要关注内容探索任务，将其形式化为一个带有延迟奖励的多臂赌博问题。我们观察到在选择学习信号时存在明显的权衡：等待全部奖励可用可能需要几个星期，从而影响学习的速度，而测量短期代理奖励只会不完美地反映实际的长期目标。我们通过两个步骤来解决这个挑战。首先，我们开发了一个预测延迟奖励的模型，该模型综合了迄今为止获得的所有信息。通过贝叶斯滤波器将完整观测和部分观测（短期或中期结果）结合起来，得到概率信念。其次，我们设计了一种利用这个新预测模型的赌博算法。该算法通过巧妙地平衡探索和开发快速学习到与长期成功一致的内容。我们将我们的方法应用于播客推荐问题，期望在两个月内找到用户重复参与的节目。经验证明，我们的方法相比于优化短期代理或等待完全实现长期结果的方法，能够显著提高性能。

Jul, 2023

带预算的贝叶斯多臂赌博算法在动态广告分配中的应用

本文针对互联网广告动态分配中的预算限制，运用多臂老虎机算法进行研究，提出具有强可证性、适应性强的 UCB1 算法改进方案。

Jun, 2013

在线推荐中结合机制设计与强盗算法抗击标题党

我们研究了多臂赌博问题的战略变体，称为战略点击赌博问题。我们设计了一种激励感知的学习算法 UCB-S，该算法实现了在不确定性下激励期望的臂行为，并且能够学习未知参数以最小化遗憾度。我们的理论结果得到了通过模拟战略臂行为进行的支持，证实了我们所提出的激励设计的有效性和鲁棒性。

Nov, 2023

具有臂依赖性延迟的随机赌博机

本文研究随机延迟赌博机问题，提出了一种基于 UCB 算法的简单但高效的算法 ——PatientBandits，通过针对延迟赋予限制的方法，得出不同类型问题的效果下限和上限。

Jun, 2020

阻断赌徒

考虑到重复使用某些选项可能是不可取的或不可行的，本文提出了一种新颖的随机多臂赌博机设置，并通过映射到 PINWHEEL 调度问题证明了问题的优化累积奖励不允许有伪多项式时间算法，但它设计了一种贪婪算法和一种基于 UCB 的算法，具有一定的优异性。

Jul, 2019

带有随机延迟的组合式封锁赌博机

本文考虑了带障碍的多臂赌博机问题中，包含组合优化的情况下解决局部最优策略的方法。我们扩展了现有模型，使得多个手臂可以按照可行性约束同时进行决策。本文提出了一种自然的贪心算法，并针对其在多种情况下的表现给出了严格的理论保证。

May, 2021

具有随机延迟反馈的线性赌博机

该文提出了基于延迟反馈的随机线性赌博机及其算法 OTFLinUCB 和 OTFLinTS，并通过实验验证了其性能，其中 OTFLinUCB 算法的遗憾上界为 O (d√T)。

Jul, 2018

具有不受限制的延迟分布的随机多臂赌博机

该研究探讨具有随机延迟的随机多臂赌博问题，在考虑了奖励相关延迟和奖励无关延迟两种情况下，提出了接近最优的算法，并在延迟分布的分位数上增加了附加依赖性，而不需要假设延迟分布来自任何参数化的分布族，还允许无限延迟的情况。

Jun, 2021

具有时延依赖收益的随机赌博机

提出了一个非平稳随机 bandit 模型及其评估算法，对比了该算法和 UCB 方法的优越性，从而能够有效地解决音乐推荐中的问题。

Oct, 2019

具有中间观测的非平稳延迟赌博机

介绍了一种解决在线推荐系统中面临的延迟反馈和非静态环境下，如何利用中间信号解决长期行为稳定性问题的计算机算法，并利用 UCRL 算法提出了一个能够在非静态延迟环境中学习的方法。

Jun, 2020