关键词adaptive experiment design
搜索结果 - 2
- 有限动作线性背景下的顺序批次学习
我们研究了线性环境中上下文臂中的顺序批处理学习问题,其中决策者被限制将个体分成(至多)固定数量的批处理,并且只能在批处理结束时观察批处理内的个体的结果。我们研究了问题的两种设置:一种是上下文是任意生成的,另一种是上下文是从某个分布中 iid - 带随机多臂赌博机的在线实验设计调查
本研究调查和综合了在线统计学习范例 —— 称为多臂赌博机的领域,作为在线实验的某一类资源。我们首先探讨了传统的多臂赌博机的随机模型,然后探讨了复杂模型的分类模式,针对每种模型的复杂性与实验设计背景下的特定要求或考虑进行了说明。最后,我们提供