构建最优的语言模型学习

Feb, 2024

Towards Optimal Learning of Language Models

Yuxian Gu, Li Dong, Yaru Hao, Qingxiu Dong, Minlie Huang...

TL;DR通过最大化数据压缩比率，优化语言模型的学习，提出了一个理论来揭示在此目标下优化学习过程的动态特性，并通过实验验证了该理论的有效性，最终得出语言模型的最优学习实质上是通过改善语言模型的缩放定律系数来实现的，为设计实用的学习加速方法提供了巨大的潜力和重要性。

Abstract

This work studies the general principles of improving the learning of language models (LMs), which aims at reducing the necessary training steps for achieving superior performance. Specifically, we present a theo

language models learning data compression optimization scaling law

发现论文，激发创造

基于压缩的 LLM 排名

我们将理解过程视为信息压缩，并提出了一种基于无损数据压缩的大型语言模型（LLMs）排序方法。我们使用五个大型语言模型作为压缩的先验，并比较它们在困难的自然语言处理任务中的性能，包括句子完成、问题回答和共指消解。实验结果表明，压缩比率和模型性能呈正相关，因此可以作为评估大型语言模型的通用指标。

Jun, 2024

大型语言模型的时间尺度定律

最近，大型语言模型广泛应用于各种任务，对于如何扩展语言模型对其性能的影响的研究引起了越来越多的关注。本文提出了新概念的时间缩放定律，并研究了语言模型在时间维度上的损失。研究发现，尽管存在损失不平衡，语言模型在不同的令牌位置上学习是均匀的。通过在各种规模的预训练语言模型上进行的实验验证了这一现象，并提供了对预训练语言模型更深入的理解。

Apr, 2024

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

在语言模型中桥接信息论压缩与几何压缩

通过分析语言模型（LM）中的压缩方法，从几何和信息论的角度，我们证明这两种视角高度相关，表明语言数据的内在几何维度可以预测其在 LM 下的编码长度，进而表明语言信息压缩能力是成功 LM 性能的重要组成部分。同时，我们还评估了一系列首次应用于语言数据的特征维度估计器，表明只有其中的一部分能够概括信息论压缩、几何压缩和适应性关系。

Oct, 2023

CodeGen2：训练大型语言模型处理编程和自然语言的经验教训

本文研究如何通过整合模型架构、学习方法、填充采样和数据分布等四个关键组件来提高大型语言模型在程序综合方面的训练效率，并在 1B LLMs 上开展了一系列实验，提炼出四个教训并发布了 CodeGen2 模型和训练框架。

May, 2023

数据混合规律：通过预测语言建模性能来优化数据混合

预训练数据、语言模型、数据混合规律、模型性能和数据计划

Mar, 2024

LLMs 学习动力系统的控制原则，揭示上下文中的神经缩放定律

预训练的大型语言模型（LLMs）在进行零 - shot 任务（包括时间序列预测）时表现出惊人的效果，本文研究了 LLMs 在从事受物理规律控制的动力系统情景下外推行为的能力，结果显示 LLaMA2 在无需微调或提示工程的情况下能准确预测动力系统时间序列，此外，学习到的物理规律的准确性随输入环境窗口长度的增加而增加，揭示了一种上下文版本的神经缩放定律，并提出了一种灵活高效的算法，可直接从 LLMs 中提取多位数的概率密度函数。

Feb, 2024

如何在大型语言模型的优化中保护版权数据？

利用训练大语言模型的理论方法，可以避免生成版权数据。

Aug, 2023

大型语言模型的模型压缩综述

该论文提供了针对大型语言模型的模型压缩技术的综述调查，涵盖量化、修剪、知识蒸馏等各种方法，并探讨了压缩后的大型语言模型的基准策略和评估指标，旨在促进效率和实际应用的提升，为领域的未来发展奠定了基础。

Aug, 2023

OLMo: 加速语言模型的科学

OLMo 是一种最先进且真正开放的语言模型，其框架用于构建和研究语言建模的科学。通过提供模型权重、推理代码以及训练和评估代码等整个框架，我们希望这一发布能够增强开放研究社区的实力，并激发创新的新浪潮。

Feb, 2024