Dec, 2023

大型语言模型的非空泛化界

TL;DR现代语言模型可以包含数十亿个参数,是否能够在训练数据之外泛化或者仅仅复述其训练语料库成为了一个问题。我们提供了针对预训练大型语言模型(LLMs)的第一个非虚空的泛化界限,表明语言模型能够发现适用于未知数据的规律。通过使用预测平滑的方法,我们推导出了适用于未界定的对数似然损失的压缩界限,并且我们将该界限扩展以处理子样本,加速在大规模数据集上的界限计算。为了实现非虚空的泛化界限所需的极限压缩水平,我们设计了 SubLoRA,一种低维度非线性参数化。通过这种方法,我们发现较大的模型具有更好的泛化界限,并且比较小的模型更容易压缩。