超模型用于探索

ICLRJun, 2020

Hypermodels for Exploration

Vikranth Dwaracherla, Xiuyuan Lu, Morteza Ibrahimi, Ian Osband, Zheng Wen...

TL;DR研究使用超模型来表示认知不确定性并指导探索，通过神经网络模型的线性超模型得出，可以更加准确地近似 Thompson 采样，并使用更复杂的探索策略。

Abstract

We study the use of hypermodels to represent epistemic uncertainty and guide exploration. This generalizes and extends the use of ensembles to approximate →

hypermodels epistemic uncertainty thompson sampling information-directed sampling hypernetworks

发现论文，激发创造

集成抽样

本篇论文提出集成抽样（ensemble sampling）的方法来近似贝叶斯 “Thompson 抽样” 算法，从而使之适用于更复杂的模型，如神经网络，此方法保持了可计算性，扩展了该算法的应用范围，并给出实验验证和理论依据。

May, 2017

基于认知神经网络的近似汤普森抽样

本文提出了一种名为 Epistemic 神经网络 (ENN) 的方法，通过准确的联合预测分布来近似输出预测分布来实现 TS，实验结果表明，ENN 可以相对准确地近似 TS，并且 extit {epinet} 可以用更低的计算成本与大型集合的性能相匹配。

Feb, 2023

深度贝叶斯赌博机对决：贝叶斯深度网络在汤普森抽样中的实证比较

本文主要研究了在复杂的情况下如何在深度强化学习中使用 Thompson 抽样框架的近似贝叶斯神经网络方法，发现在时序决策问题中许多在监督学习中表现良好的方法表现不佳。

Feb, 2018

通过本地不确定性实现汤普森抽样

本文提出了一种新的基于概率建模的 Thompson sampling 框架，使用本地潜在变量不确定性来采样均值回报，并采用变分推理来近似本地变量的后验分布，在八个上下文匹配基准数据集上进行了实验，表明由本地不确定性引导的 Thompson 采样实现了最先进的性能，同时具有较低的计算复杂度。

Oct, 2019

LLM 的高效探索

我们提出了在改进大规模语言模型方面，通过高效探索收集人类反馈的实质性好处的证据。在我们的实验中，一个代理程序在逐步生成查询的同时，通过拟合奖励模型来获取反馈。我们最佳的代理程序使用双 Thompson 抽样来生成查询，不确定性则由一种认知神经网络表示。我们的结果表明，高效探索能够在很少的查询次数下实现高水平的性能。此外，不确定性估计和探索策略的选择都起着关键作用。

Feb, 2024

超参数集合用于稳健性和不确定度量化

通过设计对权重和超参数的模型集成来改进模型的性能，并提出了一种超参数深度集成和超批集成方法，能够在计算和存储成本方面比传统的集成方法更加高效，应用于 MLP、Lenet、ResNet 20 和 Wide ResNet 28-10 网络结构，达到了超越深度集成和批量集成的最佳性能表现。

Jun, 2020

贝叶斯超网络

本论文介绍了 Bayesian hypernetworks 这一神经网络近似贝叶斯推断的框架，并通过可逆的变换实现了对其他神经网络参数的高效估计及其复杂后验分布多模式近似。实际应用表明，Bayesian hypernets 能够比 dropout 更好地抵御对抗样本攻击，并在正则化、主动学习和异常检测等一系列任务上表现出竞争力。

Oct, 2017

随机集成的贝叶斯后验近似

本文介绍了一种基于 Monte Carlo dropout、DropConnect 和一种新的非参数 dropout 的随机神经网络集成方法，通过变分推断将随机集合形式化为分布族，并训练以近似贝叶斯后验，我们在玩具问题和 CIFAR 图像分类上进行评估，结果表明随机集成相对于贝叶斯推断的其他流行基线提供了更准确的后验估计。

Dec, 2022

深度集成：一种损失景观的视角

通过研究深度神经网络的损失函数平面的同构性，我们证明了深度集合优于贝叶斯神经网络在提高准确度和对数据集变化的鲁棒性方面，并发现随机初始化的权重可以探索不同的函数空间而产生更多样的结果。

Dec, 2019

引导式汤普森抽样与深度探索

本文介绍了一种基于 Bootstrap 技术的新方法，该方法可用于进行类似于 Thompson 抽样的探索，但是不需要显式地维护或从后验分布中采样。该方法特别适用于探索与深度学习耦合的情况。

Jul, 2015