X - 臂赌博机的多项式适应代价 | BriefGPT

May, 2019

X - 臂赌博机的多项式适应代价

Polynomial Cost of Adaptation for X -Armed Bandits

Hédi Hadiji

TL;DR本文提出了一种自适应算法以应对目标函数的未知平滑度，展示并计算适应于 H {"o} lder 正则性的多项式成本以进行后悔最小化，提供了有限时间分析和关于渐近最优性的彻底讨论。

Abstract

In the context of stochastic continuum-armed bandits, we present an algorithm that adapts to the unknown smoothness of the objective function. We exhibit and compute a polynomial cost of adaptation to the H{\"o}lder regularity for regret minimization. To do this, we first reconsider th

stochastic continuum-armed bandits regret minimization adaptive algorithm h{"o}lder regularity asymptotic optimality

发现论文，激发创造

自适应树形赌博机

通过将问题转化为 tree-armed bandits 并提供新结果，我们描述了一种适用于无穷多个多项式极大值的任何连续奖励函数的噪声全局优化和连续臂赌博算法，并在不需要先前信息的情况下实现了臂赌博的平方根遗憾和优化的反平方根误差，并证明了能够自适应地组合多个树以最小化遗憾，并且在缩放维度方面提供了接近匹配的较低界。

Feb, 2013

用一种新的平滑度对抗强盗

定义了一种新的算法家族，用于对抗性多臂赌博问题，并提供基于凸平滑的简单分析技术。通过使用 Tsallis 熵进行正则化，证明了它的最小极大后悔度为 Θ(√TN)；同时，对于具有有界危害率的微扰分布，广泛类的扰动方法可获得近乎最优的后悔率，低至 O (√TN log N)，例如 Gumbel、Weibull、Frechet、Pareto 和 Gamma 分布都满足此特性。

Dec, 2015

没有 Lipschitz 常数的 Lipschitz Bandits

针对具有连续臂的随机赌博问题，研究解决策略应适应不同环境的问题，针对全局 Lipschitz 平均回报函数的特殊情况，展示在不提前知道 $L$ 或 $T$ 的情况下，最小化后悔损失达到最优阶的能力。

May, 2011

自适应平滑上下文强化学习

研究了具有随机协变量的非参数多臂赌博问题，考虑在不知道收益函数平滑度的情况下如何适应算法，并且提出了一种可以在决策过程中通过推断收益的平滑度以及利用现有策略的结构来实现平滑度自适应表现的算法，该算法在已知平滑度与未知平滑度的情况下都能够实现可接受的后悔率。

Oct, 2019

平滑的非平稳赌博机

本文研究应用于在线决策中的两臂赌博机问题，其中臂的平均奖励是绝对阶数小于等于 β 的 Hölder 函数。我们展示了该问题平滑和非平滑情况的首个分离，提出了一种策略以 T^（3/5）遗憾为代价。同时，我们为任何整数 β≥1 证明了一个 T^（β+1）/2β+1 的下限，与 β=2 的上限相匹配。

Jan, 2023

连续武装赌博机：函数空间视角

该论文研究了在更一般的平滑条件下使用 continuum-armed 摇臂赌博机优化未知的目标函数，包括优化 Lipschitz 连续的目标函数和具有 Besov 平滑性的目标函数，并在简单和累积后悔下导出了最小的极小值率。

Oct, 2020

核化赌博机中适应误差核正则性

研究了在核化赌博机问题中，在未知正则性的情况下学习算法是否能够自适应于相关核函数的正则性。通过研究转化不变核的正则性自适应性，我们推导出自适应性的下限，证明不可能在具有不同规则性的 RKHS 对中同时实现最优累计遗憾。通过连接在不同功能空间中自适应的统计困难性，我们展示了这一下限的紧密性。

Apr, 2023

X - 武装逼迫算法

本文提出了一种名为 HOO 的基于乐观优化的臂选择算法，可以对一类广义随机 bandit 问题给出更好的遗憾界，在一定条件下，在欧几里得空间内的单位超立方体上，通过 HOO 算法的表现，该算法的增长速率与空间维度无关。

Jan, 2010

无限臂老虎机的简单遗憾

本文针对无穷臂随机赌博机问题，提出一种算法用以最小化简单损失，并扩展到多种情况下，如未知时间跨度等。

May, 2015

高维线性少参数随机连续武装匪徒问题

考虑了随机连续武装机器人问题，对其低秩矩阵恢复文献的结果进行了研究，导出实现遗憾度上界的高效随机算法。

Dec, 2013