BriefGPT.xyz
Ask
alpha
关键词
sampling strategies
搜索结果 - 23
多臂赌博机中主动学习的上置信界算法
本文主要研究的问题是:如何在样本预算有限的情况下,统一地估计多个分布的平均值。通过采集数量,可以根据它们的方差为已知来设计最优的采样策略,但在更实际的情况下,需要设计自适应采样策略来选择要采样的分布(根据先前观察到的样本)。文章描述了两种策
→
PDF
9 years ago
关于随机最大后验扰动度量的专业简体中文翻译
本文提出了新的度量区间不等式方法,用于估算低维度 MAP 扰动期望值所需的样本数量,通过将该通用结果应用于 MAP 扰动,可以产生更有效的算法以从 Gibbs 分布中近似采样。
PDF
11 years ago
有重尾巴的赌徒
本文考察了当奖励分布具有 1+ε 阶矩时的多臂赌博问题,通过定义基于更精细的估计器的采样策略,如截断经验均值、Catoni 的 M - 估计和均值中位数估计器,证明了二阶矩(有限方差)足以获得与次高斯奖励分布同阶的悔恨界。
PDF
12 years ago
Prev
Next