大型语言模型的非空泛化界

Dec, 2023

Non-Vacuous Generalization Bounds for Large Language Models

Sanae Lotfi, Marc Finzi, Yilun Kuang, Tim G. J. Rudner, Micah Goldblum...

TL;DR现代语言模型可以包含数十亿个参数，是否能够在训练数据之外泛化或者仅仅复述其训练语料库成为了一个问题。我们提供了针对预训练大型语言模型（LLMs）的第一个非虚空的泛化界限，表明语言模型能够发现适用于未知数据的规律。通过使用预测平滑的方法，我们推导出了适用于未界定的对数似然损失的压缩界限，并且我们将该界限扩展以处理子样本，加速在大规模数据集上的界限计算。为了实现非虚空的泛化界限所需的极限压缩水平，我们设计了 SubLoRA，一种低维度非线性参数化。通过这种方法，我们发现较大的模型具有更好的泛化界限，并且比较小的模型更容易压缩。

Abstract

Modern language models can contain billions of parameters, raising the question of whether they can generalize beyond the training data or simply regurgitate their training corpora. We provide the first non-vacuous gene

language models generalization bounds pretrained models compression sublora

发现论文，激发创造

计算具有非平凡泛化界的深度（随机）神经网络，其参数数量远多于训练数据

通过优化 PAC-Bayes 边界，我们能够计算深度随机神经网络分类器的数量较小、训练示例数量唯有数万个的保真度上限，并将我们的发现与近期以及早期的扁平最小值和基于 MDL 的泛化解释联系起来。

Mar, 2017

估算和提高语言模型的强健性的方法

通过研究大型语言模型的泛化能力问题以及多种提高其分布韧性的方法，本文提出了未来改进大型语言模型鲁棒性的研究方向。

Jun, 2022

理解 LLMs 需要超越统计概括

对深度学习的广义化现象、超参数化模型、非可识别性以及归纳偏见进行研究，并针对语言模型相关的广义化度量、可迁移性和归纳偏见提出了有前景的研究方向。

May, 2024

通过数据压缩评估大型语言模型的泛化能力和鲁棒性

我们提出了一种基于无损数据压缩的评估方法，用于测试模型训练截断后的预测能力广义化情况。我们收集了从 2017 年到 2023 年的 83 个月的全面测试数据，并根据模型的训练数据截断将数据分为训练和测试期。我们通过测试期的压缩性能作为对未见数据广义化的度量，以及训练期和测试期之间的性能差距作为鲁棒性的度量来进行测量。实验测试了 14 种具有各种规模的代表性大型语言模型，包括维基百科、新闻文章、代码、arXiv 论文和多模态数据。我们发现许多模型的压缩率在其截断日期后显著降低，但 Mistral 和 Llama-2 等模型在性能和鲁棒性之间取得了良好的平衡。结果还表明，模型在新闻和代码数据上很难广义化，但在 arXiv 论文上表现特别好。我们还发现上下文大小和标记化实现对整体压缩性能有很大影响。

Feb, 2024

使用语言模型的学习界限

本文研究大语言模型在自然语言处理中的局限性，特别是无法学习一些基本语义属性，如语义蕴涵和一致性，以及不能学习超越 Borel 层次结构的概念，这对语言模型的语言理解能力产生了严重限制。

Jun, 2023

CodeGen2：训练大型语言模型处理编程和自然语言的经验教训

本文研究如何通过整合模型架构、学习方法、填充采样和数据分布等四个关键组件来提高大型语言模型在程序综合方面的训练效率，并在 1B LLMs 上开展了一系列实验，提炼出四个教训并发布了 CodeGen2 模型和训练框架。

May, 2023

NOLA：网络作为低秩随机基组合的线性组合

通过重新参数化使用线性组合随机生成的矩阵（基）的低秩矩阵，并仅优化线性混合系数，NOLA 将创新地克服了 LoRA 中的秩一下界，与等效参数计数的模型相比，NOLA 在自然语言处理和计算机视觉任务中表现得很好，并且证明能在更大的模型中减少一半的参数而不降低性能。

Oct, 2023

深度学习的泛化界限

本研究提出了关于深度学习的泛化误差的准则，介绍了一种基于边际似然的 PAC-Bayesian Bound 方法来预测泛化误差，并进行了广泛实证分析以评估该方法的效果和特性。

Dec, 2020

RATT: 利用未标记数据保证泛化

本文介绍了一种利用无标签数据生成泛化界限的方法，并证明了其对 0-1 经验风险最小化和梯度下降训练的线性分类器是有效的。实证表明，该界限提供的泛化保证可以在计算机视觉和自然语言处理任务中跟踪实际表现。

May, 2021

训练健壮且具有通用性的量子模型

本文研究了基于 Lipschitz 界限的量子机器学习中的对抗鲁棒性和泛化性质，导出了适用于具有可训练编码的量子模型的定制参数相关的 Lipschitz 界限，并展示了数据编码的范数对于抵抗输入数据扰动的鲁棒性具有关键影响。此外，我们导出了一个关于泛化误差的界限，明确取决于数据编码的参数。我们的理论发现提供了一种实用的策略，即通过在代价函数中规范化 Lipschitz 界限来训练鲁棒且具有泛化能力的量子模型。此外，我们表明，对于在量子机器学习中经常使用的固定且不可训练的编码，Lipschitz 界限无法通过调整参数来影响。因此，在训练过程中，可训练编码对于系统地调整鲁棒性和泛化性是至关重要的。通过数值结果的验证，我们展示了 Lipschitz 界限的规范化显著提高了量子模型的鲁棒性和泛化能力。

Nov, 2023