用较少的令牌预训练小型基础语言模型

Apr, 2024

用较少的令牌预训练小型基础语言模型

Pre-training Small Base LMs with Fewer Tokens

Sunny Sanyal, Sujay Sanghavi, Alexandros G. Dimakis

TL;DR我们研究了使用继承和训练的简单方法来构建小型基础语言模型的有效性，并通过实验证明其在各种设置中的功效。

Abstract

We study the effectiveness of a simple approach to develop a small base language model (LM) starting from an existing large base LM: first inherit a few transformer blocks from the larger LM, and then train this smaller model on a very small subset (0.1\%) of the raw pretraining data o

base language model transformer blocks lm inheritance small lms pretraining dataset

发现论文，激发创造

使用类人开发数据文集预训练 LLMs

利用与儿童所见的单词数量大致相同的单词数量，我们对大型语言模型进行预训练和评估，以学习上下文词表示，其中比较了不同架构、不同训练轮次的性能变化以及与任务组织者给出的 RoBERTa 基准的训练稳定性和可复现性。

Nov, 2023

测试集上的预训练就足够了

通过精心策划的数据预训练，使用新颖的数据混合集，我们的 Transformer-based 语言模型 phi-CTNL 在多个学术基准测试中完美表现，并打破了已知基础模型的记录，同时还展现了前所未有的准确预测下游评估基准的能力。

Sep, 2023

bert2BERT：面向可重用的预训练语言模型

本文提出了 bert2BERT，通过参数初始化有效地将现有较小的预训练模型（如 BRET_BASE）的知识转移到大型模型（如 BERT_LARGE），并通过提出高级知识进一步改进大型模型的初始化以及两阶段预训练方法，以此显着提高大型模型的预训练效率，这个方法被证明要比从头开始训练，StackBERT 和 MSLT 并使用不同类型的预训练模型的基线方法显着节省训练成本，特别是 bert2BERT 通过重复使用几乎是其一半大小的模型，将 BERT_BASE 和 GPT_BASE 的预训练计算成本节省约 45% 和 47%。

Oct, 2021

领域特定预训练模型的重要性：相较通用模型而言

研究表明，对面向单一领域的数据进行预训练，也可以得到性能强大且经济实惠的替代解决方案，本文以 StackOverflow 为例，使用 SOBertBase 和 SOBertLarge 模型在该领域上预训练，并在 SO 特定的四个下游任务上验证了其表现优于基线和大型通用模型。

Jun, 2023

何时需要数十亿字的预训练数据？

通过四种探究方法，我们发现语言模型只需要大约 100M 的单词量，就能够可靠地编码大多数句法和语义特征，而大量的数据需要用来获得足够的常识和其他技能，以掌握典型的下游 NLU 任务。

Nov, 2020

MicroBERT：低资源单语 BERT 的参数减少和多任务学习的有效训练

本研究探讨了两种技术，以在低资源设置中训练单语言 TLM，结果表明 MicroBERT 模型能够对下游任务评估进行显著改善。

Dec, 2022

BudgetLongformer：我们能否以低成本从头开始预训练 SotA 法律语言模型？

通过 Replaced Token Detection 任务提高训练信号量，我们训练了 Longformer 模型来展示使用更少的计算力可以预训练高效的语言模型，并在长文本摘要任务上取得了很好的性能。

Nov, 2022

FinGPT：小语种的大型生成模型

该研究聚焦于用于芬兰语的大型语言模型（LLMs）的创建和评估，通过从各种来源收集数据并进行预训练，综合其他语言模型的方法，在芬兰语领域取得了显著进展，并对模型的质量进行了评估，包括毒性和偏见。

Nov, 2023

语言缩水了：缩减规模后的语言模型行为

本文研究小规模的语言模型中 pre-training 效果的影响，发现 masked language modeling 对于 1.25M 及以上规模的模型具有优化效果，并建立了 pre-training perplexity 和下游任务 (GLUE benchmark) 表现的强关联性。同时，研究了 downscaling effects，并且观察到 FLOPs 小于 $2.2×10^{15}$ 时，MLM loss 并不随着计算成本 (FLOPs) 的降低而平滑缩小，增加层数并不总是有助于提高下游表现。

May, 2023

CodeGen2：训练大型语言模型处理编程和自然语言的经验教训

本文研究如何通过整合模型架构、学习方法、填充采样和数据分布等四个关键组件来提高大型语言模型在程序综合方面的训练效率，并在 1B LLMs 上开展了一系列实验，提炼出四个教训并发布了 CodeGen2 模型和训练框架。

May, 2023