扩散生成先验的汤普森抽样

Jan, 2023

Thompson Sampling with Diffusion Generative Prior

Yu-Guan Hsieh, Shiva Prasad Kasiviswanathan, Branislav Kveton, Patrick Blöbaum

TL;DR本文提出使用去噪扩散模型来学习在线决策问题的先验知识，并结合 Thompson 抽样和先前学习到的先验知识来处理新任务，实现了跨同一类 Bandit 任务表现良好的元学习策略。使用后验抽样算法来平衡先验和与来自环境的噪音观测。通过广泛的实验验证了所提出方法的潜力。

Abstract

In this work, we initiate the idea of using denoising diffusion models to learn priors for online decision making problems. Our special focus is on the meta-learning for →

denoising diffusion models meta-learning bandit framework thompson sampling prior learning

发现论文，激发创造

傾聽噪音：基于吉布斯扩散的盲去噪

利用 Gibbs 扩散（GDiff）方法，在参数化高斯噪声的假设下，提出了一种盲去噪的方法，通过一种条件扩散模型和蒙特卡洛采样器交替采样，可以推断出信号和噪声参数。

Feb, 2024

分治后验采样用于去噪扩散先验

利用去噪扩散模型（DDM）作为先验来解决逆贝叶斯问题的兴趣最近显著增加。本研究采用不同方法，利用 DDM 先验的特定结构定义了一组中间和简化的后验采样问题，相比以前的方法，降低了近似误差。我们通过使用合成示例和各种图像恢复任务来经验性地展示了我们方法的重建能力。

Mar, 2024

带虚拟协助代理的汤普森抽样

文章提出了一种基于多臂赌博框架的在线顺序决策支持方法，利用 Thompson 抽样来平衡探索与利用的权衡，提出了两种算法用以解决多臂赌博问题，并在理论上给出了广义下界，通过实验证明了该方法在现实世界的数据集上表现的有效性。

Sep, 2022

通过期望最大化从观测中学习扩散先验

通过期望最大化算法基于不完整和噪声观测的训练扩散模型，以获得适用于下游任务的正确扩散模型。

May, 2024

汤普森采样高效学习控制扩散过程

通过 Thompson 采样算法学习漂移矩阵严重不确定的扩散过程的最优控制策略，并在实际应用中验证了其优势，这是相关研究的首次尝试。

Jun, 2022

图像恢复的扩散后验近端采样

本文介绍了一种通过扩展扩散模型进行图像修复的新方法，该方法利用生成过程中与测量身份一致的样本，并结合测量信号与初始化信息来提高生成过程的效果。实验证明了该方法在不同的图像修复任务中的有效性。

Feb, 2024

物理相关扩散模型

通过在模型训练过程中加入约束条件使其生成的样本更符合所施加的约束，从而提高生成样本与约束的一致性，且相较于现有方法有更好的性能且不影响推断速度；该方法还可以自然地防止过拟合。

Mar, 2024

扩散后验采样用于一般噪声反问题

本文提出一种扩展扩散模型求解广泛的噪声非线性逆问题的方法，该方法利用后验采样实现扩散采样和流形约束梯度融合，并适用于各种噪声统计和非线性问题，代码公开。

Sep, 2022

运动规划扩散：使用扩散模型学习和规划机器人动作

学习轨迹分布的先验信息可以帮助加速机器人运动规划优化，本工作提出了学习扩散模型作为先验信息的方法，并通过扩散模型的逆去噪过程在任务目标条件下直接从后验轨迹分布中进行采样，实验证明扩散模型是编码高维机器人运动轨迹分布的强先验。

Aug, 2023

扩散模型应用于大动作空间的情境强化学习

传播模型中的扩散汤普森抽样能够通过利用预训练的扩散模型中的相关性来提高在上下文强化学习中的效率，理论和算法基础的发展以及经验证明其良好的性能。

Feb, 2024