单元级别贝叶斯神经网络中先验的理解

Oct, 2018

单元级别贝叶斯神经网络中先验的理解

Bayesian neural networks increasingly sparsify their units with depth

Mariia Vladimirova, Julyan Arbel, Pablo Mesejo

TL;DR研究了使用Gaussian weight prior和一类ReLU类非线性函数的深度贝叶斯神经网络形成的单位激活层级的先验分布随层级深度加深而变得更重尾的正则化效应。

Abstract

We investigate deep bayesian neural networks with Gaussian priors on the weights and relu-like nonlinearities, shedding light on novel sparsity-inducing mechanisms at the level of the units of the network, both p

发现论文，激发创造

深度权重先验

本文提出了深度权重先验（DWP）作为深度卷积神经网络的新型先验分布。DWP利用生成模型来鼓励已训练卷积滤波器的特定结构，例如权重之间的空间相关性。作者提出了一种变分推断方法来处理这种隐式先验分布，并通过实验证明，当训练数据有限时，使用DWP可以改进贝叶斯神经网络的性能，使用DWP样本初始化权重也可以加速传统卷积神经网络的训练。

Oct, 2018

贝叶斯神经网络先验再审视

本研究研究使用随机梯度下降算法训练的神经网络的权重统计数据，发现卷积神经网络和 ResNet 的权重显示出强烈的空间相关性，而全连接网络则显示出重尾的权重分布，根据这些观察得出更好的先验可以提高对各种图像分类数据集的性能。

Feb, 2021

有限贝叶斯神经网络的精确边缘先验分布

研究了有限宽度的贝叶斯神经网络的函数空间先验，包括深度线性网络和有限的ReLU网络，并以Meijer-G函数的形式给出了先验表达式，结果统一了以前对于有限网络先验的描述。

Apr, 2021

贝叶斯深度学习中的先验知识综述

该综述强调了先验选择对贝叶斯深度学习的重要性，并概述了各种先验方法及利用数据进行先验学习方法，以期激励实践者们更加谨慎地思考其模型的先验规范。

May, 2021

无限宽深度神经网络中的稀疏度-深度权衡

研究稀疏神经活动如何影响具有修正线性单元激活的神经网络的一般化性能，提出神经网络高斯过程（NNGP）核，观察到在浅层时更稀疏的网络在各种数据集上优于非稀疏网络，并通过扩展现有的核-岭回归的一般化误差理论来验证此观察结果。

May, 2023

结构稀疏贝叶斯神经网络中稀疏与缩减先验的综合研究

基于市场下行底部的趋势，通过计算国内主要增量资金、流动性、情绪、技术指标等多因素，进行权重计算，提出了基于隐藏半马尔科夫模型的股票量化分析方法。

Aug, 2023

具有权重通用先验的全连接贝叶斯神经网络的后验集中度

使用贝叶斯方法进行深度神经网络（BNNs）训练在广泛应用中受到了极大关注，并且已被有效地应用于各种情况。然而，大多数关于对BNNs的后验集中性质的研究仅在具有稀疏或重尾先验的BNN模型中证明结果。令人惊讶的是，目前还没有关于使用最常用的高斯先验进行BNNs的理论结果存在。这种理论缺乏是由于没有非稀疏且具有有界参数的深度神经网络（DNNs）的近似结果。在本文中，我们提出了一个新的近似理论，用于具有有界参数的非稀疏DNNs。此外，基于该近似理论，我们表明具有非稀疏一般先验的BNNs可以以接近最小最优后验集中速率接近真实模型。

Mar, 2024

深度学习时代的可扩展贝叶斯推断：从高斯过程到深度神经网络

本论文介绍了一种将大型神经网络装备上模型的不确定性的方法，并应用了这个方法在ResNet-50和深度图像先验网络上进行了实验。

Apr, 2024

深度弱非线性网络的贝叶斯推断

在大量训练数据、输入维度、网络层宽度和网络深度同时很大的情况下，我们展示了贝叶斯推断与全连接神经网络和形状非线性的关系，并提供了计算模型证据和后验的技术，结果表明神经网络贝叶斯推断与使用核函数的贝叶斯推断相一致，当网络层宽度大于深度和训练集大小时，神经网络贝叶斯推断的深度是一个有效的参数。

May, 2024

深度神经网络的后验和变分推断与重尾权重

我们在贝叶斯框架中考虑深度神经网络，采用随机网络权重的先验分布。根据 Agapiou 和 Castillo（2023）的最新观点表明，重尾先验分布实现了对平滑性的自适应，我们提出了一个简单的基于重尾权重和ReLU激活的贝叶斯深度学习先验。我们证明了相应的后验分布在非参数回归、几何数据和Besov空间等多种情况下实现了近乎最优的极小极小收缩率，同时对底层函数的内在维度和平滑性进行了自适应。虽然迄今为止大多数方法需要在先验分布中内置一种模型选择的形式，我们方法的一个关键方面是它不需要对网络架构进行超参数采样学习。我们还提供了结果的变分贝叶斯对应物，表明均场变分近似仍然从近乎最优的理论支持中受益。

Jun, 2024