BriefGPT.xyz
Ask
alpha
关键词
bandit framework
搜索结果 - 2
最佳挑战规则下的贝叶斯臂选择中的汤姆森探索
该论文研究了在集中置信度下的最佳臂识别问题,提出了一种结合汤普森采样和最佳挑战者规则的策略,在样本复杂度较低的情况下取得了近乎最优的性能。
PDF
9 months ago
扩散生成先验的汤普森抽样
本文提出使用去噪扩散模型来学习在线决策问题的先验知识,并结合 Thompson 抽样和先前学习到的先验知识来处理新任务,实现了跨同一类 Bandit 任务表现良好的元学习策略。使用后验抽样算法来平衡先验和与来自环境的噪音观测。通过广泛的实验
→
PDF
a year ago
Prev
Next