本论文提出了一种预测采样算法,利用 ARMs 的快速推断能力加速采样,证明其在二元 MNIST 等设置下可显著提高推断调用次数和采样速度。
Feb, 2020
文章提出了一种基于多臂赌博框架的在线顺序决策支持方法,利用 Thompson 抽样来平衡探索与利用的权衡,提出了两种算法用以解决多臂赌博问题,并在理论上给出了广义下界,通过实验证明了该方法在现实世界的数据集上表现的有效性。
Sep, 2022
本文综述了针对基于推荐系统的记录进行学习的基于不同离线策略估计器的几种方法,并比较了它们在 RecoGym 模拟环境中的实证表现。
Sep, 2019
使用自回归模型回答超出单步预测的复杂概率查询,包括未来事件的时机和特定事件在另一事件发生之前的可能性。通过开发一类宽泛的、高效的近似技术,对顺序模型中的边缘化进行建模。这些技术仅依赖于对预先训练的自回归模型的下一步条件分布的访问和采样,包括传统参数模型和最近的神经自回归模型。针对离散顺序模型、标记的时间点过程和随机跳跃过程,提出了具体的方法,每个方法都适用于一类明确定义的信息丰富、长程概率查询。
Mar, 2024
本文介绍了一种名为 PSDRL 的算法,它是第一个真正可扩展的近似后验采样强化学习算法,它结合了基于值函数近似的连续计划算法和对潜在状态空间模型的高效不确定性量化,经过在 Atari 基准测试上进行广泛实验,PSDRL 在样本效率和计算效率上显著优于以前的尝试并在与基于模型的强化学习方法相比具备竞争力。
Apr, 2023
本文提出使用去噪扩散模型来学习在线决策问题的先验知识,并结合 Thompson 抽样和先前学习到的先验知识来处理新任务,实现了跨同一类 Bandit 任务表现良好的元学习策略。使用后验抽样算法来平衡先验和与来自环境的噪音观测。通过广泛的实验验证了所提出方法的潜力。
Jan, 2023
本文采用一种简单的后验抽样算法来平衡探索和利用学习优化操作,称为 Thompson Sampling,理论上提出了后验抽样与 UCB 算法的联系,并提供了一个广泛适用且可以专门针对许多模型类进行特化的后验抽样贝叶斯遗憾界。
Jan, 2013
本文提出了一种使用深度贝叶斯 Bandits 算法的广告推荐系统,其包含探索技术和上下文的特征,以解决推荐系统中的反馈循环问题和算法偏差。
Aug, 2020
离线强化学习中,通过提供的系统转换数据进行策略优化;研究了基于模型的强化学习算法,并挖掘了模型学习的静态度量方法,以及模型错误对代理的最终性能的影响。
Feb, 2024
本文主要研究了在复杂的情况下如何在深度强化学习中使用 Thompson 抽样框架的近似贝叶斯神经网络方法,发现在时序决策问题中许多在监督学习中表现良好的方法表现不佳。
Feb, 2018