基于偏好的 Dueling Bandits 在线学习：综述

Jul, 2018

基于偏好的 Dueling Bandits 在线学习：综述

Preference-based Online Learning with Dueling Bandits: A Survey

Viktor Bengs, Robert Busa-Fekete, Adil El Mesaoudi-Paul, Eyke Hüllermeier

TL;DR本研究调查了基于偏好的多臂赌博机和决斗赌博机的最新研究现状及其解决方法，关注于在序贯决策过程中进行的数据反馈和学习，并且考虑了强度信息不可用的情况。

Abstract

In machine learning, the notion of multi-armed bandits refers to a class of online learning problems, in which an agent is supposed to sim

machine learning multi-armed bandits preference-based feedback online learning sequential decision process

发现论文，激发创造

具有相关臂的多路对决自适应波段算法

本文研究具有相关性的多股臂的多对打算法，在推荐系统等领域可以更高效地学习和优化用户的基于偏好的关键特征，使用自对抗算法，结合高斯过程统计方法可以更准确地捕捉相关性，提升算法的效果。

Apr, 2017

离散选择多臂赌博机

通过建立离散选择模型与在线学习和多臂赌博算法领域之间的联系，本文的两个主要贡献是提供了一类算法的次线性遗憾界，包括 Exp3 算法作为特例，并引入了一类新的对抗多臂赌博算法，借鉴了 Wen (2001) 首次提出的广义嵌套逻辑模型，这些算法能够通过封闭形式的采样分布概率实现高度的模型调优灵活性。为了演示我们算法的实际实施，我们进行了数值实验，重点关注随机赌博的情况。

Oct, 2023

将对决强盗问题简化为基本强盗问题

提出了减少德杰斯特拉竞标者问题 (Dueling Bandits) 到传统 (随机) 多臂赌博机问题 (Multi-Armed Bandits) 的算法，我们的算法有着广泛的应用性以及在有限和无限的情况下证明了较优的回报上限。

May, 2014

多臂赌博机简介

这篇论文介绍了多臂老虎机模型及其在不确定情况下做出决策的算法框架，在这一框架下，研究者们已经做出了大量的工作，本书提供了一种入门级的介绍，包括从基础模型到贝叶斯先验；从固定概率分布到可观测环境，通过与经济学的联系进行论述，使得读者可以更好地理解这个理论框架的应用。

Apr, 2019

多路对决棍手算法及其在在线排序器评估中的应用

提出了一种新的 dueling bandits 模型来解决在线排名器评估中的探索 - 开发权衡问题，该模型使用对于无限数量的排名器的同时比较。实验结果表明，该算法与现有的最先进的 dueling bandit 算法相比，表现出了数量级的性能提升。

Aug, 2016

匹配市场中的竞争赌徒

本研究提出了一种统计学习模型，用于解决双边市场中的稳定匹配问题，其中一方需从随机奖励中学习另一方的偏好，该模型扩展了标准的多臂赌博机框架，并研究了集中式和分散式方法，发现与单人多臂赌博机设置相比，具有令人惊讶的探索 - 利用权衡。

Jun, 2019

多臂赌博机与情境赌博机的实际应用调查

该研究详细回顾了多臂赌博框架在各种应用领域上的最新前沿发展，例如推荐系统、信息检索、医疗保健和金融等，同时提供了未来该领域的重要趋势和新视角。

Apr, 2019

智能教学系统的多臂赌博机

本文介绍了一种智能辅导系统的方法，该系统根据学生特定的时间和动机资源，自适应地个性化地最大化学习活动序列，以提高学生的技能，利用了内在动机学习的最新模型，并运用多臂老虎机技术进行优化，同时基于专家知识来加速探索初始启动

Oct, 2013

基于偏好的直接多目标进化优化与对决决策

该研究提出了一种基于用户偏好的多目标优化问题框架，通过直接偏好学习和主动对抗算法，实现了在无需计算适应度函数的情况下，获得收敛到感兴趣区域的解决方案，并在蛋白质结构预测领域中得到了有效的应用。

Nov, 2023

脑机接口中的多臂赌博机

本综述介绍了多臂老虎机在脑机接口 (BCI) 中的优化应用，并提出了未来研究方向。

May, 2022