探索用于下游数据修剪的学习复杂性
通过比较数据质量的简单估算方法困惑度和更复杂、计算密集的评估方法的错误 L2 范数和记忆化,我们发现困惑度方法在去除数据噪声和提升预训练数据集质量方面具有较好的效果。我们能够在仅使用原始训练数据的 30% 进行训练的情况下,改进我们的基准模型,这为自动筛选高质量数据集提供了新的方法论,并表明大部分的预训练数据可被删除而保持性能。
Sep, 2023
利用大规模网络数据集进行训练会消耗可观的计算资源,本文研究通过修剪大规模多模态数据集来提高训练效率,并通过筛选高质量数据集以降低训练成本,从而在 ImageNet 数据集上取得了更好的性能。
Jan, 2024
本研究提出了一种简单而有效的方法,即使用预训练模型进行零 - shot 结构化剪枝,从而在尽量减少计算量的情况下实现性能的提升,实验证明,在低计算量条件下对预训练模型进行卷积过滤的剪枝可以带来超过 20% 的性能提升。
Apr, 2023
参数扩展对大型语言模型核心能力的影响是如何的?我们研究了两种常见的扩展技术 —— 权重剪枝和直接训练更小或更大的模型,并分析了它们对语言模型的两个核心能力的影响:(a) 回忆在预训练阶段出现过的事实;(b) 处理推理过程中的上下文信息。通过设计一系列任务,我们发现了这两个能力在不同扩展方式下的差异。将模型大小减少 30% 以上(通过任何扩展方法)会显著降低回忆预训练中出现的事实的能力,但是将模型大小减少 60-70% 则大致保留了模型在处理上下文信息时的各种方式,从从长篇文本中检索答案到通过上下文示例学习参数化函数。密集扩展和权重剪枝都表现出这种行为,这表明模型大小的扩展对于事实回忆和上下文学习具有本质上不同的影响。
Oct, 2023
本文提出了一个方法,即基于样本难度感知熵正则化,利用经过大规模训练的预先训练模型指导下游模型训练,并同时提高了准确性和不确定性校准的可靠预测,克服了现代神经网络的困难,这是一个未被充分探索的领域。
Apr, 2023
通过详细分析不同预训练模型中的不同能力表现,我们确认了特定下游指标在不同大小的模型中展示相似的训练动态,多达 670 亿参数。此外,我们还复现了 Amber 和 OpenLLaMA,并发布了它们的中间检查点,以为研究界提供宝贵的资源,促进对开源研究人员的 LLM 预训练进行验证和探索。此外,我们提供了不同模型和能力的性能比较以及不同训练阶段的关键指标指导的实证总结。基于这些发现,我们提供了一种更用户友好的评估优化状态的策略,为建立稳定的预训练流程提供指导。
Apr, 2024
提出了一种被称为 extit {Layer Collapse (LaCo)} 的简洁的逐层修剪方法,将后置模型层折叠到先前层,实现了模型大小的快速减小而同时保留了模型结构;全面的实验表明,该方法在修剪比例为 25-30% 时保持了超过 80% 的平均任务性能,显著优于现有最先进的结构修剪方法;还进行了后训练实验证实所提出的修剪方法有效继承了原始模型的参数,并从逐层相似性的角度讨论了提出该方法的动机,评估了修剪的大型语言模型在各种修剪比例下的性能。
Feb, 2024
提出 CoFi(粗细粒度剪枝)方法,该方法结合了粗细粒度模块的剪枝决策,并采用分层蒸馏策略将知识从未剪枝模型转移到已剪枝模型,使模型同时拥有与蒸馏方法相当的精度和延迟优势,而无需使用无标注数据。在 GLUE 和 SQuAD 数据集上的实验表明,CoFi 方法在速度和精度方面相对于以前的剪枝和蒸馏方法具有更高的效率和效果。
Apr, 2022
通过研究发现,对大规模文本数据集进行小型语言模型基于困惑度的修剪,可以显著提高后续任务的性能,并且能够在过度训练和数据受限制的情况下获得下游性能增益。
May, 2024