带匪反馈的最近邻算法

Jun, 2023

Nearest Neighbour with Bandit Feedback

Stephen Pasteris, Chris Hicks, Vasilios Mavroudis

TL;DR本文中我们将最近邻居规则应用于情境强盗问题，并与适当快速的自适应最近邻搜索数据结构结合，如导航网等，我们的算法在完全对抗环境中处理数据生成过程中不作出任何假设，具有多项式对数级别的每一次执行时间，在试验和行动的数量上具有快速执行的优势，并仅占有几乎线性的空间。

Abstract

In this paper we adapt the nearest neighbour rule to the contextual bandit problem. Our algorithm handles the fully adversarial setting in

nearest neighbour rule contextual bandit fully adversarial setting data-structure polylogarithmic

发现论文，激发创造

一种层次最近邻方法用于背景环境下的 Bandits

在这篇论文中，我们考虑了度量空间中的对抗性背景下的上下文强化学习问题。虽然论文《带有强化学习反馈的最近邻》解决了该问题，但当比较器策略的决策边界附近存在许多上下文时，会出现高度的后悔。本文中，我们通过设计一种算法来解决这个问题，可以在计算后悔项时排除任何一组上下文。我们的算法基于《带有强化学习反馈的最近邻》的算法，因此具有极高的计算效率。

Dec, 2023

用于上下文强化学习问题的神经网络委员会

本文提出了一种新的上下文强化学习算法 NeuralBandit，它不需要对上下文和奖励的稳定性提出假设。该算法使用多个神经网络来建模上下文的价值，并提出了两种基于多专家方法的变体来在线选择多层感知器的参数。该算法在大型数据集上进行了测试，包括奖励稳定和不稳定的情况，并取得了成功的效果。

Sep, 2014

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

上下文臂针对高效优化学习

本文介绍了一种在线学习算法，它使用了一种基于代价敏感分类器的方法，并实现了最优遗憾率，与之前的算法相比，具有指数级别的运行速度优势，并且在反馈延迟方面实现了加性遗憾而非乘性遗憾。

Jun, 2011

个性化推荐的神经上下文强化学习

在线商业领域，推荐系统对增强用户体验至关重要。本篇研究论文探讨了基于上下文的强化学习模型 —— 上下文强化学习框架，作为实现个性化推荐的强大工具。我们深入研究了该领域中的挑战、先进算法与理论、协同策略，以及开放性问题和未来前景。与现有相关教程不同，（1）我们专注于上下文强化学习的探索视角，以减轻推荐系统中的 “马太效应”，即物品的热门度导致富者更富、贫者更贫；（2）除了传统的线性上下文强化学习，我们还将专注于神经上下文强化学习，近年来成为重要的分支，从经验和理论两方面探究神经网络如何增进上下文强化学习的个性化推荐；（3）我们将介绍最新的话题 —— 协同神经上下文强化学习，以结合用户异质性和用户相关性，为推荐系统定制；（4）我们将提供和讨论神经上下文强化学习在个性化推荐中的新兴挑战和未解问题，特别是对于大型神经模型。

Dec, 2023

上下文对决机器人

本文考察了在提供有限信息的情况下，如何使用上下文信息进行学习选择行动的问题，并在 Yue 等人的 dueling-bandits 框架中研究了该问题，提出一种新的基于博弈论的解决方案概念，称为 von Neumann 优胜者，并提出了三种有效的算法，以实现在线学习和从类似批处理的数据中逼近 von Neumann 优胜者。

Feb, 2015

邻居学习：网络中的随机和对抗性赌博机

本文介绍了一种新颖的决策模型，以多臂老虎机框架为基础分析社交网络中的学习和决策过程。通过观察邻居的行动和得到的回报，个体可以最小化自己的后悔，我们提供了这种情况下的算法，无论是确定性还是对抗性的多臂老虎机模型，这些算法都是最优的（除去对数因子），并且可以用于社交网络中的自私智能体的近似纳什均衡。

Apr, 2017

关于上下文相关赌博机聚类的研究

CAB 算法是一种协同推荐算法，它采用了上下文相关的用户邻域估计机制，能够同时进行探索利用平衡和协同步骤，证明了具有不同数据假设的后悔边界，并在生产和真实数据集上验证了 CAB 的显着预测性能优势。

Aug, 2016

一伙强盗

本文提出了一种新的算法方法用于解决基于社交网络结构的 Bandit 问题，该算法对每个网络节点（用户）分配了一个 Bandit 算法，并允许其与相邻节点共享信息，与传统 Contextual Bandit 方法相比，实验结果表明该算法在预测性能方面有显著提高。

Jun, 2013

鲁棒随机线性情境臂带在对抗攻击下的应用

提出了第一个针对全面适应性攻击的稳健性线性上下文 bandit 算法，其不仅可以抵御回报攻击，还可以抵御袭击环境，提高了对各种流行攻击的稳健性。

Jun, 2021