在这篇论文中,我们考虑了度量空间中的对抗性背景下的上下文强化学习问题。虽然论文《带有强化学习反馈的最近邻》解决了该问题,但当比较器策略的决策边界附近存在许多上下文时,会出现高度的后悔。本文中,我们通过设计一种算法来解决这个问题,可以在计算后悔项时排除任何一组上下文。我们的算法基于《带有强化学习反馈的最近邻》的算法,因此具有极高的计算效率。
Dec, 2023
本文提出了一种新的上下文强化学习算法 NeuralBandit,它不需要对上下文和奖励的稳定性提出假设。该算法使用多个神经网络来建模上下文的价值,并提出了两种基于多专家方法的变体来在线选择多层感知器的参数。该算法在大型数据集上进行了测试,包括奖励稳定和不稳定的情况,并取得了成功的效果。
Sep, 2014
本文介绍了一种上下文赌博算法,它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略,而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。
May, 2018
本文介绍了一种在线学习算法,它使用了一种基于代价敏感分类器的方法,并实现了最优遗憾率,与之前的算法相比,具有指数级别的运行速度优势,并且在反馈延迟方面实现了加性遗憾而非乘性遗憾。
Jun, 2011
在线商业领域,推荐系统对增强用户体验至关重要。本篇研究论文探讨了基于上下文的强化学习模型 —— 上下文强化学习框架,作为实现个性化推荐的强大工具。我们深入研究了该领域中的挑战、先进算法与理论、协同策略,以及开放性问题和未来前景。与现有相关教程不同,(1)我们专注于上下文强化学习的探索视角,以减轻推荐系统中的 “马太效应”,即物品的热门度导致富者更富、贫者更贫;(2)除了传统的线性上下文强化学习,我们还将专注于神经上下文强化学习,近年来成为重要的分支,从经验和理论两方面探究神经网络如何增进上下文强化学习的个性化推荐;(3)我们将介绍最新的话题 —— 协同神经上下文强化学习,以结合用户异质性和用户相关性,为推荐系统定制;(4)我们将提供和讨论神经上下文强化学习在个性化推荐中的新兴挑战和未解问题,特别是对于大型神经模型。
本文考察了在提供有限信息的情况下,如何使用上下文信息进行学习选择行动的问题,并在 Yue 等人的 dueling-bandits 框架中研究了该问题,提出一种新的基于博弈论的解决方案概念,称为 von Neumann 优胜者,并提出了三种有效的算法,以实现在线学习和从类似批处理的数据中逼近 von Neumann 优胜者。
Feb, 2015
本文介绍了一种新颖的决策模型,以多臂老虎机框架为基础分析社交网络中的学习和决策过程。通过观察邻居的行动和得到的回报,个体可以最小化自己的后悔,我们提供了这种情况下的算法,无论是确定性还是对抗性的多臂老虎机模型,这些算法都是最优的(除去对数因子),并且可以用于社交网络中的自私智能体的近似纳什均衡。
Apr, 2017
CAB 算法是一种协同推荐算法,它采用了上下文相关的用户邻域估计机制,能够同时进行探索利用平衡和协同步骤,证明了具有不同数据假设的后悔边界,并在生产和真实数据集上验证了 CAB 的显着预测性能优势。
Aug, 2016
本文提出了一种新的算法方法用于解决基于社交网络结构的 Bandit 问题,该算法对每个网络节点(用户)分配了一个 Bandit 算法,并允许其与相邻节点共享信息,与传统 Contextual Bandit 方法相比,实验结果表明该算法在预测性能方面有显著提高。
Jun, 2013
提出了第一个针对全面适应性攻击的稳健性线性上下文 bandit 算法,其不仅可以抵御回报攻击,还可以抵御袭击环境,提高了对各种流行攻击的稳健性。
Jun, 2021