跟进也很重要：通过后续服务改进上下文强化学习

Sep, 2023

跟进也很重要：通过后续服务改进上下文强化学习

Follow-ups Also Matter: Improving Contextual Bandits via Post-serving Contexts

Chaoqi Wang, Ziyu Ye, Zhe Feng, Ashwinkumar Badanidiyuru, Haifeng Xu

TL;DR设计了一个新算法 poLinUCB，用于处理具有后续服务上下文的情境强化学习问题，并在标准假设下实现了紧凑的遗憾值。

Abstract

Standard contextual bandit problem assumes that all the relevant contexts are observed before the algorithm chooses an arm. This modeling paradigm, while useful, often falls short when dealing with problems in which valuable additional context can be observed after arm selection. For e

contextual bandit post-serving contexts polinucb regret elliptical potential lemma

发现论文，激发创造

上下文阻塞赌博机

该论文研究了一种新的上下文多臂赌博问题，其中玩家在每个时间步观察独立采样的上下文，以确定每个臂的平均回报，但播放一个臂会在未来的一定时间步内阻止它。作者提出了基于 UCB 的算法来解决这个问题，同时介绍了延迟利用和机会抽样的概念。

Mar, 2020

上下文赌博大比拼

本文是对背景上下文算法的一个全面的研究和综述，重点关注依靠监督学习的优化原则的实用方法，并利用大量的监督学习数据集进行了实证评估。研究发现，最近使用不确定性乐观主义的方法在整体上效果最好，其次是通过上下文多样性暗示进行探索的简单贪心基线。

Feb, 2018

对话式上下文强化学习算法及其应用

将上下文策略（Contextual bandit）算法推广到对话情境的策略推荐 (Conversational contextual bandit)，通过针对关键术语（key-terms）的交流反馈来加速策略学习，设计 Conversational UCB 算法来处理此类情境，理论分析 ConUCB 可以达到比传统策略策略 LinUCB 更小的遗憾上界，实验结果表明了该算法的有效性。

Jun, 2019

AdaLinUCB: 基于上下文的赌博机的机会学习

本文主要研究机遇上下文奖励问题，提出了自适应上界置信区间算法（AdaLinUCB），并实现了 O（（log T ）^ 2）的问题相关遗憾上界证明。

Feb, 2019

具有多样化上下文的随机线性情境策略带

本文研究了上下文多样性对随机线性情境赌博机的影响，提出了 LinUCB-d 算法并分析其遗憾性能，理论结果表明，在多样性上下文的假设下，LinUCB-d 的期望累积遗憾被一个常数限制，改善了以往对 LinUCB 的理解并加强了其性能保证。

Mar, 2020

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

个性化推荐的神经上下文强化学习

在线商业领域，推荐系统对增强用户体验至关重要。本篇研究论文探讨了基于上下文的强化学习模型 —— 上下文强化学习框架，作为实现个性化推荐的强大工具。我们深入研究了该领域中的挑战、先进算法与理论、协同策略，以及开放性问题和未来前景。与现有相关教程不同，（1）我们专注于上下文强化学习的探索视角，以减轻推荐系统中的 “马太效应”，即物品的热门度导致富者更富、贫者更贫；（2）除了传统的线性上下文强化学习，我们还将专注于神经上下文强化学习，近年来成为重要的分支，从经验和理论两方面探究神经网络如何增进上下文强化学习的个性化推荐；（3）我们将介绍最新的话题 —— 协同神经上下文强化学习，以结合用户异质性和用户相关性，为推荐系统定制；（4）我们将提供和讨论神经上下文强化学习在个性化推荐中的新兴挑战和未解问题，特别是对于大型神经模型。

Dec, 2023

平衡线性情境臂

本篇论文针对强异质性或复杂结果模型容易引起难以估计问题的上下文匹配算法，通过整合因果推断文献中的平衡方法来降低其偏差估计的问题，并对具有平衡的线性上下文匹配算法进行损失分析，从而展示了其在多个监督学习数据集上的实用优势以及在初级训练数据中模拟模型错误和偏见的工作中所展现出的优越性。

Dec, 2018

多任务学习用于情境赌博机

本文提出了一个基于上限置信区间的多任务学习算法框架，用于处理具有高任务相似性的上下文型臂带问题，并揭示了此算法在数据中高任务相似性的优势。

May, 2017

基于位置模型的多臂赌博反馈排序学习

本文介绍了一种基于多臂老虎机算法和位置点击模型的方法，用于解决线上系统中推荐排名的偏见问题，并在合成和实际数据集的离线和在线 A/B 测试中证明了该算法的有效性。

Apr, 2020