Apr, 2020

有限动作线性背景下的顺序批次学习

TL;DR我们研究了线性环境中上下文臂中的顺序批处理学习问题,其中决策者被限制将个体分成(至多)固定数量的批处理,并且只能在批处理结束时观察批处理内的个体的结果.我们研究了问题的两种设置:一种是上下文是任意生成的,另一种是上下文是从某个分布中iid抽取的。在每个环境下,我们确定了遗憾下界,并提供了一个算法,其遗憾上界几乎与下界相匹配。