基于行动中心的上下文分组赌博机算法

NIPSNov, 2017

基于行动中心的上下文分组赌博机算法

Action Centered Contextual Bandits

Kristjan Greenewald, Ambuj Tewari, Predrag Klasnja, Susan Murphy

TL;DR为延伸时间不变线性模型假设限制，我们提出了一种上下文 Bandits 的线性模型扩展，该模型具有基线奖励和处理效应两个部分，并已在移动健康研究中做了实验证明其有效性。

Abstract

contextual bandits have become popular as they offer a middle ground between very simple approaches based on multi-armed bandits and very complex approaches using the full power of reinforcement learning. They have demonstrated success in web applications and have a rich body of associ

contextual bandits linear models mobile health treatment effect performance guarantees

发现论文，激发创造

平衡线性情境臂

本篇论文针对强异质性或复杂结果模型容易引起难以估计问题的上下文匹配算法，通过整合因果推断文献中的平衡方法来降低其偏差估计的问题，并对具有平衡的线性上下文匹配算法进行损失分析，从而展示了其在多个监督学习数据集上的实用优势以及在初级训练数据中模拟模型错误和偏见的工作中所展现出的优越性。

Dec, 2018

广义线性情境赌博机的可证明最优算法

本文提出了针对广义线性情境臂的上界置信度算法，实现了与众不同的性能，同时我们还分析了更简单的上界置信度算法，在特定情况下证明了该算法具有最优的后悔。

Feb, 2017

线性上下文臂优化中的自适应探索

我们设计了一种渐近上限最优算法，并充分利用线性结构和精确探索，从而减少了在多种合理情境下的失算，数值结果表明，与其他基准算法相比，我们的方法大大减少了失算。

Oct, 2019

鲁棒随机线性情境臂带在对抗攻击下的应用

提出了第一个针对全面适应性攻击的稳健性线性上下文 bandit 算法，其不仅可以抵御回报攻击，还可以抵御袭击环境，提高了对各种流行攻击的稳健性。

Jun, 2021

基于 LLMs 增强的上下文强化学习

通过将大型语言模型与情境赌博算法框架相融合，加强了对于情境的表示，提供更密集且更丰富的视角，初步结果表明这种方法的潜力，与传统赌博算法相比，在累积奖励上有显著改善，且减少了后悔。这种整合不仅展示了大型语言模型在强化学习中的能力，还为全新的情境感知决策系统开启了新的篇章。

Nov, 2023

聚类线性情境强化学习与背包

本文研究了集群上下文强化学习，其中回报和资源消耗是集群特定线性模型的结果，算法无法知晓各个元素的集群成员关系。通过拉动一根臂在一个时间段内会产生回报和对于多个资源的消耗，并且任何资源的总消耗超过约束条件会导致算法终止。因此，最大化总回报需要学习回报、资源消耗和集群成员关系的模型。我们提出了一种算法，在时间段的数量上具有亚线性的遗憾，并且不需要访问所有的臂。特别地，我们证明只需对随机选择的一部分臂执行一次聚类即可达到这个结果。为了实现这个结果，我们结合了计量经济学和约束条件强化学习的文献中的技术。

Aug, 2023

具有大动作空间的上下文臂匠算法的实用化

提供了第一个通用的、效率高的算法，用于解决序列决策中存在的、现有算法在大型连续行动空间中表现不佳的问题，该算法基于（i）监督学习和（ii）行动空间的优化的计算预言，并显示其比标准基线方法表现更好。

Jul, 2022

个性化推荐的神经上下文强化学习

在线商业领域，推荐系统对增强用户体验至关重要。本篇研究论文探讨了基于上下文的强化学习模型 —— 上下文强化学习框架，作为实现个性化推荐的强大工具。我们深入研究了该领域中的挑战、先进算法与理论、协同策略，以及开放性问题和未来前景。与现有相关教程不同，（1）我们专注于上下文强化学习的探索视角，以减轻推荐系统中的 “马太效应”，即物品的热门度导致富者更富、贫者更贫；（2）除了传统的线性上下文强化学习，我们还将专注于神经上下文强化学习，近年来成为重要的分支，从经验和理论两方面探究神经网络如何增进上下文强化学习的个性化推荐；（3）我们将介绍最新的话题 —— 协同神经上下文强化学习，以结合用户异质性和用户相关性，为推荐系统定制；（4）我们将提供和讨论神经上下文强化学习在个性化推荐中的新兴挑战和未解问题，特别是对于大型神经模型。

Dec, 2023

线性上下文强化学习模型选择的通用自适应算法

在上下文强化学习中进行模型选择是一项重要的补充问题。本研究提出了一些新的算法，这些算法可以在数据自适应的情况下进行探索，并提供模型选择保证。

Nov, 2021

上下文推荐系统中的估计问题

通过整合因果推断文献中的平衡方法，开发了参数和非参数上下文强化学习算法来实现对初始估计偏差问题的更少敏感性，并在域上提供了带有平衡的上下文强化学习的第一个遗憾界分析

Nov, 2017