基于自回归生成的后验采样

May, 2024

Posterior Sampling via Autoregressive Generation

Kelly W Zhang, Tiffany, Hongseok Namkoong, Daniel Russo

TL;DR使用历史数据进行预训练的自回归模型，在新闻推荐任务中通过端到端微调预训练语言模型来处理新闻文章标题文本以提高性能，并在在线决策中展示了能够理解不确定性和主动收集信息以解决环境变化的新的学习算法框架。

Abstract

Real-world decision-making requires grappling with a perpetual lack of data as environments change; intelligent agents must comprehend uncertainty and actively gather information to resolve it. We propose a new f

decision-making uncertainty bandit algorithms autoregressive model news recommendation

发现论文，激发创造

基于预测自回归模型的预测采样

本论文提出了一种预测采样算法，利用 ARMs 的快速推断能力加速采样，证明其在二元 MNIST 等设置下可显著提高推断调用次数和采样速度。

Feb, 2020

带虚拟协助代理的汤普森抽样

文章提出了一种基于多臂赌博框架的在线顺序决策支持方法，利用 Thompson 抽样来平衡探索与利用的权衡，提出了两种算法用以解决多臂赌博问题，并在理论上给出了广义下界，通过实验证明了该方法在现实世界的数据集上表现的有效性。

Sep, 2022

从老虎机反馈中学习：现有技术综述

本文综述了针对基于推荐系统的记录进行学习的基于不同离线策略估计器的几种方法，并比较了它们在 RecoGym 模拟环境中的实证表现。

Sep, 2019

关于概率序列模型的高效边缘化

使用自回归模型回答超出单步预测的复杂概率查询，包括未来事件的时机和特定事件在另一事件发生之前的可能性。通过开发一类宽泛的、高效的近似技术，对顺序模型中的边缘化进行建模。这些技术仅依赖于对预先训练的自回归模型的下一步条件分布的访问和采样，包括传统参数模型和最近的神经自回归模型。针对离散顺序模型、标记的时间点过程和随机跳跃过程，提出了具体的方法，每个方法都适用于一类明确定义的信息丰富、长程概率查询。

Mar, 2024

深度强化学习的后验抽样

本文介绍了一种名为 PSDRL 的算法，它是第一个真正可扩展的近似后验采样强化学习算法，它结合了基于值函数近似的连续计划算法和对潜在状态空间模型的高效不确定性量化，经过在 Atari 基准测试上进行广泛实验，PSDRL 在样本效率和计算效率上显著优于以前的尝试并在与基于模型的强化学习方法相比具备竞争力。

Apr, 2023

扩散生成先验的汤普森抽样

本文提出使用去噪扩散模型来学习在线决策问题的先验知识，并结合 Thompson 抽样和先前学习到的先验知识来处理新任务，实现了跨同一类 Bandit 任务表现良好的元学习策略。使用后验抽样算法来平衡先验和与来自环境的噪音观测。通过广泛的实验验证了所提出方法的潜力。

Jan, 2023

通过后验抽样学习优化

本文采用一种简单的后验抽样算法来平衡探索和利用学习优化操作，称为 Thompson Sampling，理论上提出了后验抽样与 UCB 算法的联系，并提供了一个广泛适用且可以专门针对许多模型类进行特化的后验抽样贝叶斯遗憾界。

Jan, 2013

深度贝叶斯多臂赌博机：在线个性化推荐中的探索

本文提出了一种使用深度贝叶斯 Bandits 算法的广告推荐系统，其包含探索技术和上下文的特征，以解决推荐系统中的反馈循环问题和算法偏差。

Aug, 2020

深度自回归密度网络与神经集成在基于模型的离线强化学习中的比较

离线强化学习中，通过提供的系统转换数据进行策略优化；研究了基于模型的强化学习算法，并挖掘了模型学习的静态度量方法，以及模型错误对代理的最终性能的影响。

Feb, 2024

深度贝叶斯赌博机对决：贝叶斯深度网络在汤普森抽样中的实证比较

本文主要研究了在复杂的情况下如何在深度强化学习中使用 Thompson 抽样框架的近似贝叶斯神经网络方法，发现在时序决策问题中许多在监督学习中表现良好的方法表现不佳。

Feb, 2018