通过LFR教学法加速大型语言模型预训练：学习、聚焦与回顾

Sep, 2024

通过LFR教学法加速大型语言模型预训练：学习、聚焦与回顾

Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review

Neha Prakriya, Jui-Nan Yen, Cho-Jui Hsieh, Jason Cong

TL;DR本研究针对传统大规模语言模型预训练过程中的高训练成本和低模型质量问题，提出了一种新的LFR（学习、聚焦、回顾）教学法。这一动态训练模式通过系统性地聚焦和重复回顾复杂数据块，有效提高了模型的长期记忆能力，并在GPT-2模型的预训练中实现了20倍的加速和更低的困惑度。

Abstract

Large Language Model (LLM) Pretraining traditionally relies on autoregressive language modeling on randomly sampled data blocks from web-scale datasets. We take inspiration from human learning techniques like Spaced Rep

发现论文，激发创造

D4: 通过文档去重和多样化提升LLM预训练

通过预先训练模型的嵌入，精心选择数据可加速训练并提高自然语言处理任务的下游准确性，进而对语言模型的预训练方法和性能产生质疑，并展示了在超大规模模型上持续改进模型的可能路径。

Aug, 2023

语言模型预训练的不可简化课程

提出了一种用于大型语言模型预训练的不可约课程算法，通过模拟训练轨迹中的样本损失，以提高学习性，实验证明在各个领域中都能提高验证困惑度，并且降低网络的尖锐度，在MMLU基准上表现出更好的5-shot准确度。

Oct, 2023

如何培训数据高效的LLMs

通过数据的有效利用，我们研究了大型语言模型的训练，提出了基于数据选择的技术并优化了模型质量和训练资源的消耗。我们的方法能在最大程度上提高覆盖率和多样性，同时以高效的方式训练模型。

Feb, 2024

简单且可扩展的策略，用于持续预训练大型语言模型

大型语言模型的持续学习策略可以通过简单且可扩展的方法成功更新模型，同时只需使用一小部分计算资源来达到重新训练的效果。

Mar, 2024

LLM2LLM：利用新的迭代数据增强提升LLM模型

使用以预训练大型语言模型（LLM）为基础的LLM2LLM方法，通过数据增强和迭代，显著提高LLM在低数据情况下的性能，优于传统的微调和其他数据增强方法，减少了对数据策划的依赖，为更可扩展和高性能的LLM解决方案铺平了道路。

Mar, 2024

大规模语言模型的持续学习：一项综合调研

对大型语言模型在持续学习、预训练、微调以及评估协议方面进行综述.

Apr, 2024

通过动态参数调整彻底改变大型语言模型训练

在大语言模型时代，提高计算资源的有效利用需求变得非常重要。本文基于LoRA精调方法，引入了一种新颖的参数高效训练技术，通过频繁改变可训练参数的一部分，提高了有效的预训练。我们的方法不仅在预训练阶段实现了内存和计算开销减少，与当前最先进的参数高效算法相当，而且保持了与完全预训练相当的准确性水平。我们提供了理论分析和实证证据来证明我们的方法的有效性。

Jun, 2024

指导预训练：语言模型是受监督的多任务学习器

该研究探索了通过提供指令进行预训练的受监督多任务预训练方法，通过使用开源模型构建的高效指令合成器生成指令-响应对，验证了指令预训练的有效性，并证明在从头开始的预训练和持续预训练中都能增强预训练模型的性能。

Jun, 2024

跨语言持续预训练在规模上的突破

本文研究了以持续预训练（CPT）的方式构建新语言的大型语言模型（LLMs），并通过40个模型规模的并行实验表明：1）CPT能够快速收敛并以可扩展的方式节省大量计算资源；2）CPT遵循Hoffmann等人（2022）提出的扩展缩放定律，具有联合数据-参数缩放项；3）根据估计的扩展因子，CPT的计算最优数据-参数分配存在显著差异；4）在训练持续时间和语言属性的影响下，规模化的迁移效果可以通过数据重播的方法有效减轻灾难性遗忘。希望我们的发现对研究界在规模化LLMs的可迁移性方面提供深入的见解。

Jul, 2024

大型语言模型的峰值性能实现：系统评审

本研究解决了大型语言模型（LLM）在性能优化和资源消耗方面的挑战。通过系统文献综述，提出了多种方法来加快LLM的训练和推理，同时保持准确性。研究表明，可以在不损失性能的情况下，显著降低计算和内存成本，推动LLM的广泛应用。

Sep, 2024