关键词non-stationary multi-armed bandits
搜索结果 - 2
- 多模多任务对话行为分类的任务选择和分配及非平稳多臂赌博机方法
提出了一种基于非静态多臂赌博机的折扣汤普森采样的多模态多任务对话行为分类任务的任务选择和分配方法,结果表明,该方法在不同的训练阶段可以有效地识别任务效用,并在训练过程中主动避免无用或有害的任务,相比单任务和多任务基线模型在 UAR 和 F1 - 具有时间性的多臂赌博机问题中汤普森抽样的遗憾界
本文从学习的角度分析了未知参数情况下的时序不息不静赌博机问题,在采用泰普斯抽样的情况下考虑了一个通用策略映射作为竞争者,证明了贝叶斯遗憾的 k 倍增长上限。本文的竞争对手足够灵活,可以表示各种基准,包括最佳固定操作策略,最优策略,惠特尔指数