Jan, 2023

扩散生成先验的汤普森抽样

TL;DR本文提出使用去噪扩散模型来学习在线决策问题的先验知识,并结合 Thompson 抽样和先前学习到的先验知识来处理新任务,实现了跨同一类 Bandit 任务表现良好的元学习策略。使用后验抽样算法来平衡先验和与来自环境的噪音观测。通过广泛的实验验证了所提出方法的潜力。