神经网络学习逐渐复杂的统计规律

Feb, 2024

神经网络学习逐渐复杂的统计规律

Neural Networks Learn Statistics of Increasing Complexity

Nora Belrose, Quintin Pope, Lucia Quirke, Alex Mallen, Xiaoli Fern

TL;DR该研究指出神经网络首先学习数据分布的低阶矩，然后再学习高阶相关性。通过实验证据，证明了神经网络在训练早期会自动学习以最大熵分布为基础的低阶统计信息，但训练后期会失去这种能力。该研究还将分布简易偏差扩展到离散领域，并通过证明 Token 的 n-gram 频率与嵌入向量矩的等价性以及在 LLMs 中找到的实证证据，证明了该偏差。最后，研究利用最优运输方法对某一类的低阶统计信息进行手术式编辑，使其与目标类的统计信息相匹配，并展示了早期训练的网络将编辑后的样本视为从目标类中抽取的样本。

Abstract

The distributional simplicity bias (DSB) posits that neural networks learn low-order moments of the data distribution first, before moving

distributional simplicity bias neural networks low-order moments maximum-entropy distributions optimal transport methods

发现论文，激发创造

一层隐藏层神经网络中的简单性偏差

该研究通过严格定义和深入探究神经网络的简单性偏差，理论上和经验上均证明在解决任务时只学习低维度输入的特征，不依赖于更复杂的特征，同时提出一种基于特征的训练顺序的集成方法，能够使得模型对高斯噪声具有更强的鲁棒性。

Feb, 2023

重新思考 DNN 的泛化、记忆和谱偏差之间的关系

研究表明，深度神经网络的学习偏差会在训练的后期阶段出现第二次下降，其高频分量也会因此减少，导致测试误差的第二次下降，而网络的频谱可以用于指示测试误差的第二次下降。

Apr, 2020

神经网络中简化偏差的陷阱

本文旨在通过设计包含不同时简单性的多个预测特征的数据集，捕捉实际训练数据中的非鲁棒性，从理论和实证研究中发现简洁性偏见在训练神经网络中的作用及其对泛化和鲁棒性的影响，提出新算法以避免简洁性偏见的缺陷。

Jun, 2020

神经经验贝叶斯

本文提出了一种结合核密度估计和经验贝叶斯方法的新的非监督学习目标，并把优化问题抽象成为高维球体的交互。基于这一机制我们提出了两种新的算法框架：基于 Langevin MCMC 和经验贝叶斯的 “步进 - 跳跃” 采样方案和一个概率框架用于联想记忆，称为 NEBULA。

Mar, 2019

基于熵的深度神经网络引导加速收敛与提升性能

通过引入基于熵的损失项，我们提出了一种新的方法来加强神经网络学习丰富的潜在数据表示，在更少的维度上收敛于更好的测试指标，并在图像压缩和图像分类的实验中展示了其有效性。

Aug, 2023

离散突触的神经网络中亚支配稠密区域实现简单学习与高计算性能

本文研究神经系统中的离散型突触权重在学习和优化中的应用，并通过学习随机模式来证明其性能。研究发现，这些离散型突触的特定配置可以通过简单学习协议轻松获得，并对干扰具有稳健性。同时，基于局部熵最大化的大偏差度量也提出了一些新的优化算法方案。

Sep, 2015

神经网络的频谱偏差

通过傅里叶分析的工具，表明深度 ReLU 网络偏向于低频函数，且随数据流形复杂性的增加，学习高频函数变得更容易，但参数扰动会影响频率成分的鲁棒性和精确表达。

Jun, 2018

稀疏深度神经网络的统计学习

基于经验风险最小化与 l_1 正则化的深度神经网络估计器，我们推导出其在回归和分类（包括多类别）中的过量风险的一般界限，并证明它在各种函数类的整个范围内几乎达到最小值（取对数因子）。

Nov, 2023

学习神经网络的双峰现象

神经网络的广义化误差存在双下降现象，高度过参数化的模型能够避免过拟合并实现良好的测试性能，与统计学习理论所描述的标准偏差 - 方差权衡相违背。本研究探索了这一现象与神经网络所表示的函数的复杂性和敏感性之间的联系，特别关注随机特征模型的简单教师 - 学生设置，利用重复方法进行理论分析，给出了布尔平均维数的解释性表达式，在数据点数目、特征数目和输入尺寸趋近无穷大的高维情况下导出。我们发现，随着网络过参数化程度的增加，布尔平均维数在插值阈值处达到峰值，与广义化误差峰值相对应，然后缓慢趋于一个较低的渐近值。在不同模型类别和训练设置的数值实验中得出相同的现象学现象。此外，我们经验性地发现，对抗初始化的模型往往具有较高的布尔平均维数值，而对抗攻击更强大的模型则显示出较低的布尔平均维数。

Jan, 2024

学习不学习：使用偏置数据训练深度神经网络

本文提出了一种新颖的正则化算法，用于训练具有严重偏差的深度神经网络，该算法可以有效地消除特征嵌入中的偏差信息。

Dec, 2018