用较少的令牌预训练小型基础语言模型
利用与儿童所见的单词数量大致相同的单词数量,我们对大型语言模型进行预训练和评估,以学习上下文词表示,其中比较了不同架构、不同训练轮次的性能变化以及与任务组织者给出的 RoBERTa 基准的训练稳定性和可复现性。
Nov, 2023
通过精心策划的数据预训练,使用新颖的数据混合集,我们的 Transformer-based 语言模型 phi-CTNL 在多个学术基准测试中完美表现,并打破了已知基础模型的记录,同时还展现了前所未有的准确预测下游评估基准的能力。
Sep, 2023
本文提出了 bert2BERT,通过参数初始化有效地将现有较小的预训练模型(如 BRET_BASE)的知识转移到大型模型(如 BERT_LARGE),并通过提出高级知识进一步改进大型模型的初始化以及两阶段预训练方法,以此显着提高大型模型的预训练效率,这个方法被证明要比从头开始训练,StackBERT 和 MSLT 并使用不同类型的预训练模型的基线方法显着节省训练成本,特别是 bert2BERT 通过重复使用几乎是其一半大小的模型,将 BERT_BASE 和 GPT_BASE 的预训练计算成本节省约 45% 和 47%。
Oct, 2021
研究表明,对面向单一领域的数据进行预训练,也可以得到性能强大且经济实惠的替代解决方案,本文以 StackOverflow 为例,使用 SOBertBase 和 SOBertLarge 模型在该领域上预训练,并在 SO 特定的四个下游任务上验证了其表现优于基线和大型通用模型。
Jun, 2023
通过四种探究方法,我们发现语言模型只需要大约 100M 的单词量,就能够可靠地编码大多数句法和语义特征,而大量的数据需要用来获得足够的常识和其他技能,以掌握典型的下游 NLU 任务。
Nov, 2020
本研究探讨了两种技术,以在低资源设置中训练单语言 TLM,结果表明 MicroBERT 模型能够对下游任务评估进行显著改善。
Dec, 2022
通过 Replaced Token Detection 任务提高训练信号量,我们训练了 Longformer 模型来展示使用更少的计算力可以预训练高效的语言模型,并在长文本摘要任务上取得了很好的性能。
Nov, 2022
该研究聚焦于用于芬兰语的大型语言模型(LLMs)的创建和评估,通过从各种来源收集数据并进行预训练,综合其他语言模型的方法,在芬兰语领域取得了显著进展,并对模型的质量进行了评估,包括毒性和偏见。
Nov, 2023
本文研究小规模的语言模型中 pre-training 效果的影响,发现 masked language modeling 对于 1.25M 及以上规模的模型具有优化效果,并建立了 pre-training perplexity 和下游任务 (GLUE benchmark) 表现的强关联性。同时,研究了 downscaling effects,并且观察到 FLOPs 小于 $2.2×10^{15}$ 时,MLM loss 并不随着计算成本 (FLOPs) 的降低而平滑缩小,增加层数并不总是有助于提高下游表现。
May, 2023
本文研究如何通过整合模型架构、学习方法、填充采样和数据分布等四个关键组件来提高大型语言模型在程序综合方面的训练效率,并在 1B LLMs 上开展了一系列实验,提炼出四个教训并发布了 CodeGen2 模型和训练框架。
May, 2023