针对具有无限奖励的多臂赌博机的分布式无感知、风险感知算法

Jun, 2019

针对具有无限奖励的多臂赌博机的分布式无感知、风险感知算法

Distribution oblivious, risk-aware algorithms for multi-armed bandits with unbounded rewards

Anmol Kagrecha, Jayakrishnan Nair, Krishna Jagannathan

TL;DR本文研究一个选择 arm 的问题，它通过平衡固定预算下预期奖励和相关 CVaR 之间的线性组合来优化，同时提出了一类可证明上限的算法，并比较其在非 oblivious 算法中的误差边界与实际表现（数字化实验）的竞争性。

Abstract

Classical multi-armed bandit problems use the expected value of an arm as a metric to evaluate its goodness. However, the expected value is a risk-neutral metric. In many applications like finance, one is interes

multi-armed bandit problems finance cvar algorithm distribution obliviousness

发现论文，激发创造

基于尾风险度量的最优臂识别方法

本论文提出了一种基于多臂赌博机算法的方法，用于识别在金融行业和不确定环境中具有最小条件风险价值、价值风险价值或条件风险价值加权平均的多臂赌博机，其主要贡献是一种能够适用于包括重尾分布在内的一般分布上的最优算法，匹配了样本所需的预期数量下界，同时开发了新的经验浓度不等式方法以提高估计精度。

Aug, 2020

带有未知变量的组合网络优化：具有线性回报的多臂赌博机

本文提出了一种适用于多臂赌博机问题的解决方案，只需要以线性时间复杂度存储未知参数，可以处理一般的掌握参数相关性的问题，并用于对网络中的最大权匹配、最短路径及最小生成树计算问题的解决。

Nov, 2010

多臂赌博机中主动学习的上置信界算法

本文主要研究的问题是：如何在样本预算有限的情况下，统一地估计多个分布的平均值。通过采集数量，可以根据它们的方差为已知来设计最优的采样策略，但在更实际的情况下，需要设计自适应采样策略来选择要采样的分布（根据先前观察到的样本）。文章描述了两种策略，根据样本数据以高概率上限置信界为比例，拉动分布并报告相对于最优配置的过度估计误差的有限样本性能分析。我们表明这些分配策略的性能不仅取决于方差还取决于分布的完整形状。

Jul, 2015

经验条件风险价值的集中度界限：无界情形

本文提出了一种基于样本计算条件风险价值 (CVaR) 的方法，通过统计方法得到了一个新的置信边界来估计 CVaR。该方法和得到的置信边界是基于量化反应的风险价值 (VaR) 估计的经验。

Aug, 2018

一种风险厌恶的非平稳随机多臂赌博机框架

提出了一种在非平稳环境中运行的自适应风险感知策略框架，该框架结合了文献中普遍存在的各种风险度量标准，将多臂赌博算法的多个系列映射到风险感知的设置中，并将重启贝叶斯在线变点检测算法和（可调节的）强制探索策略结合在一起，以检测本地（针对每个臂）的切换，并提供有限时间的理论保证和渐进性的损失界限，性能在合成和现实环境中均优于现有状态下的技术，并在风险感知和非平稳性方面高效执行。

Oct, 2023

风险规避的均值方差多臂赌博机问题

本文研究了在风险厌恶的多臂老虎机问题中使用收益的均值和方差作为风险度量，并证明了 UCB 策略和 DSEE 策略可以实现收益方面的最优表现，且模型特定和模型无关的遗憾都有下界。

Apr, 2016

分配具有未知且随机奖励的可分配资源至武器

本文研究如何分配可分配的可再生资源，提出两种算法设计来达到最优值，同时给出了几种理论分析结果。

Jun, 2023

多臂赌博机中的风险规避

介绍了基于风险规避原则的随机多臂赌博机的新场景，使用方差作为风险度量，提出了两种新算法，并调研了它们的理论保证和初步实证结果.

Jan, 2013

支持感知 CVaR 赌博机的最优汤普森抽样策略

本文研究一种多臂赌博机问题，其中每个臂的质量是在奖励分布的某个水平 alpha 上通过条件风险价值（CVaR）来测量。我们引入了一种新的 CVaR 赌博机定理的 Thompson Sampling 方法，尤其适用于基于物理资源的问题。我们在理论上提供了它们 CVaR 损失的最小化性能的可行性分析，实验结果表明这些策略是第一个在 CVaR 赌博机中实现渐近最优性的，并匹配了此设置的相应渐近下限。

Dec, 2020

线性参数化赌博机

本文研究基于多维随机向量臂收益的赌博机问题，证明了在解决特定问题时使用相应的相位策略可以达到最优的累计遗憾和贝叶斯风险，并提出了针对通用问题的近似最优解。

Dec, 2008