May, 2024

基于延迟反馈的预算推荐

TL;DR在有限的资源和延迟反馈的情况下,研究了延迟反馈对约束上下文多臂赌博问题的影响,并开发了一种决策策略(DORAL),以优化资源在具有依赖延迟反馈的上下文多臂赌博问题中的使用。