用于上下文强化学习问题的神经网络委员会

Sep, 2014

用于上下文强化学习问题的神经网络委员会

A Neural Networks Committee for the Contextual Bandit Problem

Robin Allesiardo, Raphael Feraud, Djallel Bouneffouf

TL;DR本文提出了一种新的上下文强化学习算法 NeuralBandit，它不需要对上下文和奖励的稳定性提出假设。该算法使用多个神经网络来建模上下文的价值，并提出了两种基于多专家方法的变体来在线选择多层感知器的参数。该算法在大型数据集上进行了测试，包括奖励稳定和不稳定的情况，并取得了成功的效果。

Abstract

This paper presents a new contextual bandit algorithm, neuralbandit, which does not need hypothesis on stationarity of contexts and rewards. Several →

contextual bandit algorithm neuralbandit neural networks multi-experts approach stationarity of rewards

发现论文，激发创造

个性化推荐的神经上下文强化学习

在线商业领域，推荐系统对增强用户体验至关重要。本篇研究论文探讨了基于上下文的强化学习模型 —— 上下文强化学习框架，作为实现个性化推荐的强大工具。我们深入研究了该领域中的挑战、先进算法与理论、协同策略，以及开放性问题和未来前景。与现有相关教程不同，（1）我们专注于上下文强化学习的探索视角，以减轻推荐系统中的 “马太效应”，即物品的热门度导致富者更富、贫者更贫；（2）除了传统的线性上下文强化学习，我们还将专注于神经上下文强化学习，近年来成为重要的分支，从经验和理论两方面探究神经网络如何增进上下文强化学习的个性化推荐；（3）我们将介绍最新的话题 —— 协同神经上下文强化学习，以结合用户异质性和用户相关性，为推荐系统定制；（4）我们将提供和讨论神经上下文强化学习在个性化推荐中的新兴挑战和未解问题，特别是对于大型神经模型。

Dec, 2023

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

非平稳环境下的上下文广告学习通过神经预测集成抽样

在这篇论文中，我们介绍了一种新颖的非平稳情境强化学习算法，它结合了可扩展的基于深度神经网络的架构和一个精心设计的探索机制，在非平稳环境中优先采集具有最持久价值的信息，并通过对两个展现明显非平稳性的真实推荐数据集的实证评估，我们证明了我们的方法明显优于现有技术水平。

Oct, 2023

基于上置信界探索的神经上下文波段算法

我们提出了一种新算法 NeuralUCB 来解决随机上下文的赌博机问题，它利用了深度神经网络的表达能力并使用基于神经网络的随机特征映射来构建奖励的上界，证明了该算法能够在一些基准测试中具有实际竞争力且能够保证近乎最优的回报保证。

Nov, 2019

图神经臂带

通过图神经网络，本论文提出了一种名为图神经赌博（GNB）的框架，旨在利用用户之间的协作特性来提高在线推荐系统的性能，并通过理论分析和实证研究验证了我们提出的框架的有效性。

Aug, 2023

上下文臂状赌博机的神经利用与探索

本文通过提出的 EE-Net 策略，使用两个神经网络（开发网络和探索网络）来解决 contextual multi-armed bandits 中的 exploitation-exploration trade-off 问题，提供了一个实例化的 regret upper bound，表现优于相关基线模型。

May, 2023

一种层次最近邻方法用于背景环境下的 Bandits

在这篇论文中，我们考虑了度量空间中的对抗性背景下的上下文强化学习问题。虽然论文《带有强化学习反馈的最近邻》解决了该问题，但当比较器策略的决策边界附近存在许多上下文时，会出现高度的后悔。本文中，我们通过设计一种算法来解决这个问题，可以在计算后悔项时排除任何一组上下文。我们的算法基于《带有强化学习反馈的最近邻》的算法，因此具有极高的计算效率。

Dec, 2023

多任务学习用于情境赌博机

本文提出了一个基于上限置信区间的多任务学习算法框架，用于处理具有高任务相似性的上下文型臂带问题，并揭示了此算法在数据中高任务相似性的优势。

May, 2017

风险感知的神经上下文点臂连续控制

我们提出了一个风险感知的决策框架，用于处理上下文褒贬问题，并满足实际环境中的约束条件，通过采用一个多批评者的角色体系来平衡约束满足度和性能。

Dec, 2023

上下文赌博大比拼

本文是对背景上下文算法的一个全面的研究和综述，重点关注依靠监督学习的优化原则的实用方法，并利用大量的监督学习数据集进行了实证评估。研究发现，最近使用不确定性乐观主义的方法在整体上效果最好，其次是通过上下文多样性暗示进行探索的简单贪心基线。

Feb, 2018