高维回归中的缩放和重标定

May, 2024

Scaling and renormalization in high-dimensional regression

Alexander B. Atanasov, Jacob A. Zavatone-Veth, Cengiz Pehlevan

TL;DR用随机矩阵理论和自由概率的基本工具简要推导了多种高维岭回归模型的训练和泛化性能，在物理学和深度学习背景的读者中提供了这些主题的介绍和评论。通过自由概率的 $S$ 变换特性，从代数的几行直接获得训练和泛化误差的解析公式，能够直观地识别模型性能的幂律缩放来源。计算了广义类随机特征模型的泛化误差，发现在所有模型中，$S$ 变换对应于训练 - 测试泛化差距，并提供了广义交叉验证估计器的类比。利用这些技术，对具有结构化协变量的非常通用的随机特征模型得到了细粒度的偏差 - 方差分解。这些新颖结果使我们能够发现随机特征模型的缩放区域，在超参数设置中特征的方差限制了性能。我们还演示了随机特征模型中异向权重结构如何限制性能，并导致超参数设置中有限宽度修正的非平凡指数。我们的结果扩展并提供了对早期神经缩放定律模型的统一视角。

Abstract

This paper presents a succinct derivation of the training and generalization performance of a variety of high-dimensional ridge regression models using the basic tools of random matrix theory and →

ridge regression models random matrix theory free probability generalization error random feature models

发现论文，激发创造

线性回归中的缩放定律：计算、参数和数据

大规模深度学习模型的实证研究表明，随着模型大小和数据规模的增加，训练模型的测试误差呈多项式改进；然而，神经缩放定律的一般形式预测增加模型大小会单调改善性能，这与传统的认知不同，即测试误差包含逼近、偏差和方差误差，并且方差错误随模型大小增加而增加。本研究在无限维线性回归设置下研究了缩放规律的理论；假设最优参数符合高斯先验，数据协方差矩阵具有幂律谱指数为 a>1，我们证明了测试误差的可还原部分为 Θ(M^{-(a-1)} + N^{-(a-1)/a})；方差错误随 M 的增加而增加，但由于随机梯度下降的隐式正则化作用，被其他误差所主导从而在界限中消失。我们的理论与实证神经缩放定律一致，并经过数值模拟验证。

Jun, 2024

超线性伸缩区域外的随机特征回归渐近行为

近期的机器学习进展通过使用过参数化的模型训练到接近训练数据的插值来实现。通过双下降现象的展示，已经证明参数数量是模型复杂性和泛化能力的劣质指标。这引发了一个问题，即了解参数化对这些模型的性能的影响。本文以随机特征岭回归（Random Feature Ridge Regression）为例进行调查。

Mar, 2024

随机特征与多项式规则

通过分析随机特征模型在高斯数据的一般监督学习问题中的泛化性能，我们建立了一个在输入维度上的两个主要控制参数：随机特征的数量 N 和训练集的大小 P，都以输入维度 D 为幂次关系的等效多项式模型。我们的结果证明了 N、P 和 D 之间的比例关系，并与数值实验结果定量一致，同时远离渐近极限 D→∞，其中至少一个介于 P/D^K 和 N/D^L 之间的参数保持有限。

Feb, 2024

随机特征回归的泛化误差：精确渐近性和双下降曲线

本文考虑使用随机特征空间，在测度无限趋近于无限，特征维度和样本量趋近于无穷大的情况下，利用结果回归模型和双下降现象等关键词解释深度学习模型中的奇妙现象。

Aug, 2019

复杂数据集的基础缩放规律和普适性统计结构

本文使用统计物理学和随机矩阵理论，探究出现在真实和人造数据集中的普遍特征，发现特征 - 特征协方差矩阵的本地和全局特征值在数据规模方面存在着重要差异，而 Shannon 熵则与局部 RMT 结构和特征值尺度有关，并且与强相关数据集相比于无相关性的人造数据集要小很多。

Jun, 2023

高维随机特征学习的普适性定律

证明随机特征学习的一般性定理，表明具有非线性激活函数的随机特征模型在训练和泛化误差方面渐近等效于匹配协方差矩阵的线性高斯模型，其方法基于经典的 Lindeberg 方法，证明的主要内容包括针对与训练过程相关的优化问题的 leave-one-out 分析以及针对弱相关随机变量的中心极限定理，通过 Stein 方法获得。

Sep, 2020

随机特征学习的泛化性能

本研究探讨了统计学习框架下随机特征稀疏化岭回归的泛化性质，结果显示仅需 O（根号 n*log n）个随机特征即可实现 O（1 / 根号 n）的学习界限，优于之前的提法；此外我们证明了一系列快速学习速率及其潜在影响，研究证明了及格自适应分配随机特征的可行性，这有助于降低计算复杂度，并保持最优泛化特性。

Feb, 2016

随机特征和隐式流形模型学习中的泛化误差

使用统计物理学中的复制法，我们针对一个综合数据集，研究了广义线性回归和分类问题，在超参数化和不充分参数化的条件下，为这些问题提供了渐近泛化表现的闭式表达式，特别地，我们展示了逻辑回归的双重下降效应，突显了用正交投影相比随机高斯投影在学习随机特征时的优越性，讨论了隐藏流形模型中数据相关性的作用。

Feb, 2020

神经网络的泛化误差的高维动态

本文通过随机矩阵理论和线性模型中的准确解，研究了使用梯度下降训练的大型神经网络的泛化动态，发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响，当自由参数的有效数量等于样本数量时，网络过度训练最严重，大小的适当调整可以减少网络过度训练，另外，高维域下，低泛化误差需要从小的初始权重开始。此外，本文还发现了两个新的现象：在梯度下降过程中存在一个冻结的权重子空间，而高维状态的统计特性可保护免受过度训练的影响。

Oct, 2017

深度神经网络中出现的随机矩阵。高斯情况

本研究针对出现在深度神经网络分析中的随机矩阵乘积奇异值分布进行了研究，其中，数据矩阵的总体协方差矩阵是随机的，基于随机矩阵理论和标准技术，分析了数据矩阵的非高斯分布并阐述其在分析宏观普适性方面的潜在应用。

Jan, 2020