Dec, 2021

批量策略优化中的模型选择

TL;DR在上下文 bandit 设置下,通过识别任何模型选择算法应优化折衷的三个错误源(近似误差,统计复杂性和覆盖率),我们研究了批次策略优化中的模型选择问题。尽管无法同时保证所有三个源的保证,但松弛其中任何一个错误源均可实现近似于预测准确性和模型复杂度的保证。