线性赌博机的噪声自适应置信区间及其在贝叶斯优化中的应用
本文提出了一种新的方差感知置信集,用于线性 bandits 和线性混合马尔可夫决策过程(MDPs)中,我们得到了与方差和维度相关,但不显式依赖于循环次数 k 的后悔上限,并获得了史上首个仅在强化学习中呈对数比例的后悔上限,这三种技术思想可能是独立感兴趣的应用。
Jan, 2021
我们研究了随机线性臂问题,在每一轮中,学习者接收一组动作(即特征向量),从中选择一个元素并获得随机奖励。期望奖励是所选动作的一个固定但未知的线性函数。我们研究了稀疏遗憾界,其依赖于线性奖励函数中的非零系数数目 $S$。先前的研究关注 $S$ 已知的情况,或者动作集满足额外假设的情况。在这项研究中,我们首次获得了在 $S$ 未知且动作集由对手生成时成立的稀疏遗憾界。我们的技术将在线转换为置信区间,并结合一种新颖的层级置信区间随机模型选择方法。当 $S$ 已知时,我们的分析恢复了对于对手动作集的最先进界限。我们还表明,我们的方法的一种变体,使用 Exp3 动态选择置信区间,可用于提高随机线性臂问题的实证性能,同时享受对于时间段的最优遗憾界限。
Jun, 2024
研究如何在处理具有结构属性的未知参数(例如稀疏、分组稀疏、低秩)的随机线性 Bandit 问题中构建置信椭圆,以达到更紧密的置信度范围和更尖锐的失误边界。
Jun, 2016
本文中,我们基于对 logistic 损失的自共轭分析提出了改进的固定设计置信区间用于线性 logistic 模型,避免了对所有臂奖励分布的最小方差 $\kappa$ 的直接依赖。我们提供了两个应用程序,以及一个下界,证明了性能保证的最新进展。
Nov, 2020
我们设计了一种方差自适应的 OLS-UCB 算法,通过在线估计协方差矩阵的系数,在实践中更容易管理,从而改进了代理方差算法的遗憾上界,并且在满足所有非负协方差系数的情况下,有效利用了半强求职者反馈,在 P≤d 和 P≫d 的指数区间内都表现出良好性能。
Feb, 2024
本研究提供了一种基于 Bentkus 集中结果的近乎最优置信序列,用于解决在线推断中随着样本大小不断增长需要统一有效置信区间的问题,证实这种置信序列在合成覆盖问题和自适应停止算法方面具有优越性。
Jun, 2020
通过将问题转化为 tree-armed bandits 并提供新结果,我们描述了一种适用于无穷多个多项式极大值的任何连续奖励函数的噪声全局优化和连续臂赌博算法,并在不需要先前信息的情况下实现了臂赌博的平方根遗憾和优化的反平方根误差,并证明了能够自适应地组合多个树以最小化遗憾,并且在缩放维度方面提供了接近匹配的较低界。
Feb, 2013
介绍针对非静态赌博机环境的最新数据驱动决策算法,采用了随机和对手式学习算法的非传统结合方法,通过滑动窗口 - 置信界算法,针对各种非静态赌博机问题实现了最优动态遗憾边界,并通过数字实验验证了算法的超越性能。
Mar, 2019
本文主要研究的问题是:如何在样本预算有限的情况下,统一地估计多个分布的平均值。通过采集数量,可以根据它们的方差为已知来设计最优的采样策略,但在更实际的情况下,需要设计自适应采样策略来选择要采样的分布(根据先前观察到的样本)。文章描述了两种策略,根据样本数据以高概率上限置信界为比例,拉动分布并报告相对于最优配置的过度估计误差的有限样本性能分析。我们表明这些分配策略的性能不仅取决于方差还取决于分布的完整形状。
Jul, 2015