BriefGPT.xyz
Ask
alpha
关键词
learning perspective
搜索结果 - 2
具有时间性的多臂赌博机问题中汤普森抽样的遗憾界
本文从学习的角度分析了未知参数情况下的时序不息不静赌博机问题,在采用泰普斯抽样的情况下考虑了一个通用策略映射作为竞争者,证明了贝叶斯遗憾的 k 倍增长上限。本文的竞争对手足够灵活,可以表示各种基准,包括最佳固定操作策略,最优策略,惠特尔指数
→
PDF
5 years ago
有效地从显性偏好中学习
本文从学习的角度考虑了揭示偏好问题。对于具有线性评估函数以及具有线性可分、具有有界二阶导数的评估函数的代理,我们提供了具有多项式样本复杂度的有效算法。
PDF
12 years ago
Prev
Next