蛋白质语言模型是否计算优化？

Jun, 2024

Are Protein Language Models Compute Optimal?

Yaiza Serrano, Álvaro Ciudad, Alexis Molina

TL;DR通过研究蛋白质语言模型的规模定律，我们发现 pLM 的大小在计算预算范围内呈次线性增长，表现出随着模型规模增加性能递减的现象。研究结果显示 pLM 的训练损失也存在性能平稳期，这表明广泛使用的 pLM 可能不会在计算效率上达到最佳状态，而使用更大的模型能更高效地实现收敛。通过在较小的数据集上训练一个 35M 模型，我们得到了与更大模型（如 ESM-2（15B）和 xTrimoPGLM（100B））相当的困惑度结果，这为更高效地训练和在计算生物学中的实际应用 pLM 铺平了道路。

Abstract

While protein language models (pLMs) have transformed biological research, the scaling laws governing their improvement remain underexplored. By adapting methodologies from NLP →

protein language models scaling laws plm sizes compute-optimal compute-efficient plms

发现论文，激发创造

语言缩水了：缩减规模后的语言模型行为

本文研究小规模的语言模型中 pre-training 效果的影响，发现 masked language modeling 对于 1.25M 及以上规模的模型具有优化效果，并建立了 pre-training perplexity 和下游任务 (GLUE benchmark) 表现的强关联性。同时，研究了 downscaling effects，并且观察到 FLOPs 小于 $2.2×10^{15}$ 时，MLM loss 并不随着计算成本 (FLOPs) 的降低而平滑缩小，增加层数并不总是有助于提高下游表现。

May, 2023

训练最优的大型语言模型

本文研究在给定计算预算下训练变换器语言模型的最佳模型大小和标记数量，并发现对于计算优化的训练，模型大小和训练标记数量应该等量缩放。同时测试了此假设通过训练一个预测计算最优模型的 Chinchilla，该模型在大范围的下游评估任务中均匀且显著地优于 Gopher，GPT-3，Jurassic-1 和 Megatron-Turing NLG。

Mar, 2022

更多计算是您所需之物

基于新的缩放定律，我们推测模型性能主要取决于计算经费的使用，而与模型大小和数据集大小的具体分配无关。根据统一的缩放定律，我们预测（a）训练应优先考虑较小的模型大小和较大的训练数据集以提高推理效率，（b）假设可用的网络数据集已耗尽，扩大模型大小可能是进一步改善模型性能的唯一途径。

Apr, 2024

以 0.1% 的额外计算能力超越比例定律

UL2R method improves scaling properties of language models with minimal extra compute, demonstrating emergent abilities on challenging BIG-Bench NLP tasks, and outperforming PaLM on many few-shot setups.

Oct, 2022

语言模型的可靠性扩展：超级训练与下游任务

基于语言模型的缩放定律，本研究通过建立 104 个模型的测试平台，以不同数量的标记在三个数据分布上进行训练，研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。

Mar, 2024

MiniCPM: 小型语言模型的潜力与可伸缩的训练策略揭示

通过开展大量模型和数据维度的可扩展研究，我们引入了 MiniCPM，这是一种高效资源的替代模型，旨在探索小型语言模型在未来大型语言模型研究中的潜力，并通过模型收敛和数据适应来优化比例关系。

Apr, 2024

GLaM: 使用专家混合方法高效扩展语言模型

本文提出了一种名为 GLaM（通用语言模型）的语言模型，采用稀疏的专家混合体系结构，可以提高模型容量同时降低训练成本。该模型可规模化至 1.2 万亿参数，性能优于 GPT-3，且训练花费和计算资源开销较小。

Dec, 2021

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023

数据受限的语言模型的扩展

本研究考察了在数据受限的情况下缩放语言模型的方法以及采用重复数据进行训练的效果，并提出了可衡量计算优化性的缩放规律，并尝试通过增加训练数据或去除常用过滤器等方式缓解数据稀缺问题。

May, 2023