多臂赌博机中的风险规避

Jan, 2013

Risk-Aversion in Multi-armed Bandits

Amir Sani, Alessandro Lazaric, Rémi Munos

TL;DR介绍了基于风险规避原则的随机多臂赌博机的新场景，使用方差作为风险度量，提出了两种新算法，并调研了它们的理论保证和初步实证结果.

Abstract

stochastic multi-armed bandits solve the Exploration-Exploitation dilemma and ultimately maximize the expected reward. Nonetheless, in many practical problems, maximizing the expected reward is not the most desirable objective. In this paper, we introduce a novel setting based on the p

stochastic multi-armed bandits risk-aversion exploration risk variance theoretical guarantees

发现论文，激发创造

随机多臂赌博机中的广义风险厌恶

探讨了在多臂赌博机中最小化遗憾的问题，其中臂的好坏度量不是平均回报率，而是平均值和方差的某个通用函数，特征化了学习可能的条件，并展示了对于某些情况自然算法无法实现亚线性遗憾的例子。

May, 2014

非静态奖励多臂老虎机问题中的最优探索利用

本文讨论在不确定性的情况下如何在多臂老虎机问题中进行赌博，提出了一种正式的处理方法，并建立了不同类型的奖励变化和最小化遗憾之间的直接联系。

May, 2014

风险规避的均值方差多臂赌博机问题

本文研究了在风险厌恶的多臂老虎机问题中使用收益的均值和方差作为风险度量，并证明了 UCB 策略和 DSEE 策略可以实现收益方面的最优表现，且模型特定和模型无关的遗憾都有下界。

Apr, 2016

一种风险厌恶的非平稳随机多臂赌博机框架

提出了一种在非平稳环境中运行的自适应风险感知策略框架，该框架结合了文献中普遍存在的各种风险度量标准，将多臂赌博算法的多个系列映射到风险感知的设置中，并将重启贝叶斯在线变点检测算法和（可调节的）强制探索策略结合在一起，以检测本地（针对每个臂）的切换，并提供有限时间的理论保证和渐进性的损失界限，性能在合成和现实环境中均优于现有状态下的技术，并在风险感知和非平稳性方面高效执行。

Oct, 2023

随机和非随机多臂赌博机问题的遗憾分析

本调查报告主要关注于多臂赌博问题中两个极端情况的分析，即独立同分布回报和对抗性回报，并对有限行为、情境赌博模型等进行了分析。

Apr, 2012

多臂赌博机中的探索与利用分离

研究了多臂赌博问题中的探索和利用问题，并提出了一种基于非均匀采样策略的算法，用于解决带有分段稳定随机赌博问题的情况，并实现了对于超宽带通道选择的模拟测试。

May, 2012

均值方差赌博机的汤普森采样算法

本文提出了针对均值 - 方差 MAB 问题的 Thompson 抽样算法，并在更少的假设条件下提供了高斯和伯努利 bandit 的全面损失分析。我们的算法在各种参数配置下都达到了最好的已知损失边界。

Feb, 2020

保守型赌徒

研究一种新颖的多臂赌博问题，旨在解决公司在探索最大化收益新策略的同时，保持其收益在固定时间内持续增长的挑战。通过提出自然而又新颖的策略来维护限制，我们在随机和对抗设置下分析了限制维护的代价。

Feb, 2016

探索与开发与安全：风险厌恶的多臂老虎机

本文介绍了多臂风险感知算法（MARAB），用于能源管理，旨在通过限制高风险风险臂的探索来提高效率。通过使用条件风险价值作为臂质量，当用户提供的风险水平趋近于零时，MARAB 倾向于最小化多臂赌博机算法（MIN），以最大化最小值。实验表明，与其他算法相比，MARAB 和 MIN 算法更加稳健，可用于人工和现实世界的问题。

Jan, 2014

多种最佳臂的遗憾问题

本篇论文旨在应对多臂赌博机问题中存在多个最优 / 近似最优机械臂的后悔最小化问题，通过提出自适应算法来自动适应问题的难度，并在理论和实验方面展现了该算法的优越性。

Jun, 2020