非平稳环境下的上下文广告学习通过神经预测集成抽样

Oct, 2023

非平稳环境下的上下文广告学习通过神经预测集成抽样

Non-Stationary Contextual Bandit Learning via Neural Predictive Ensemble Sampling

Zheqing Zhu, Yueyang Liu, Xu Kuang, Benjamin Van Roy

TL;DR在这篇论文中，我们介绍了一种新颖的非平稳情境强化学习算法，它结合了可扩展的基于深度神经网络的架构和一个精心设计的探索机制，在非平稳环境中优先采集具有最持久价值的信息，并通过对两个展现明显非平稳性的真实推荐数据集的实证评估，我们证明了我们的方法明显优于现有技术水平。

Abstract

Real-world applications of contextual bandits often exhibit non-stationarity due to seasonality, serendipity, and evolving social trends. While a number of non-stationary contextual bandit learning algorithms hav

contextual bandits non-stationarity exploration mechanism deep-neural-network-based architecture real-world recommendation datasets

发现论文，激发创造

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

用于上下文强化学习问题的神经网络委员会

本文提出了一种新的上下文强化学习算法 NeuralBandit，它不需要对上下文和奖励的稳定性提出假设。该算法使用多个神经网络来建模上下文的价值，并提出了两种基于多专家方法的变体来在线选择多层感知器的参数。该算法在大型数据集上进行了测试，包括奖励稳定和不稳定的情况，并取得了成功的效果。

Sep, 2014

可扩展的神经上下文 Bandit 算法用于推荐系统

提出一种面向推荐系统的可扩展的高效样本神经上下文强化学习算法，Epistemic Neural Recommendation (ENR)，具有比基线算法更高的点击率和用户评分，并且具有比最佳基线算法少 29% 的用户交互，同时计算资源需求明显较低。

Jun, 2023

上下文广告非平稳策略评估的有效样本处理

提出了一种新的离线策略评估器，能够同时正确地结合重要性加权、双重稳健评估和非平稳策略评估方法，控制偏差 - 方差权衡并降低方差，并成功地将之前的方法统一起来，实现了对实验学习问题信息的更有效利用。

Oct, 2012

个性化推荐的神经上下文强化学习

在线商业领域，推荐系统对增强用户体验至关重要。本篇研究论文探讨了基于上下文的强化学习模型 —— 上下文强化学习框架，作为实现个性化推荐的强大工具。我们深入研究了该领域中的挑战、先进算法与理论、协同策略，以及开放性问题和未来前景。与现有相关教程不同，（1）我们专注于上下文强化学习的探索视角，以减轻推荐系统中的 “马太效应”，即物品的热门度导致富者更富、贫者更贫；（2）除了传统的线性上下文强化学习，我们还将专注于神经上下文强化学习，近年来成为重要的分支，从经验和理论两方面探究神经网络如何增进上下文强化学习的个性化推荐；（3）我们将介绍最新的话题 —— 协同神经上下文强化学习，以结合用户异质性和用户相关性，为推荐系统定制；（4）我们将提供和讨论神经上下文强化学习在个性化推荐中的新兴挑战和未解问题，特别是对于大型神经模型。

Dec, 2023

深度上下文多臂赌博机

本文提出了一个非线性深度学习框架，用于处理上下文多臂赌博机问题，并通过 Thompson sampling 方法来解决探索与开发的取舍。我们采用贝叶斯神经网络的权重后验分布来解决 dropout 和采样之间的联系，并通过自适应学习 dropout 率从而自动调整探索水平。在两个任务上，我们的方法相较于其他方法用于减少损失，并将其应用于 HubSpot 的市场优化问题。

Jul, 2018

统一聚类和非平稳赌博机

本文提出了一种基于同质性检验的非静态匪徒的变化检测和在线聚类的统一解决方案，对非静态匪徒和在线聚类的精确分析和实证评估显示出其灵活性和有价值性。

Sep, 2020

元学习下的神经协作过滤赌博机

通过构建神经协同过滤自适应组 Metaban 算法，本文将人工智能中的探究与利用困境（exploitation-exploration dilemma）应用于定制化推荐，并在实验中将 Metaban 与六种模型进行对比，结果表明 Metaban 显著优于其他模型的表现。

Jan, 2022

上下文臂状赌博机的神经利用与探索

本文通过提出的 EE-Net 策略，使用两个神经网络（开发网络和探索网络）来解决 contextual multi-armed bandits 中的 exploitation-exploration trade-off 问题，提供了一个实例化的 regret upper bound，表现优于相关基线模型。

May, 2023

多臂老虎机实验中的适应性和混淆

本篇论文研究以往文献未解决的问题，提出了一种新的基于 Thompson 采样的算法（被称为去混淆 Thompson 采样），该算法在易于稳定的情况下发挥优越效率，在困难的不稳定情况下也表现出出人意料的韧性，可在具有不稳定上下文影响的武器性能的智能探险算法中应用。

Feb, 2022