大型语言模型中的关键相变

Jun, 2024

Critical Phase Transition in a Large Language Model

Kai Nakaishi, Yoshihiko Nishikawa, Koji Hukushima

TL;DR使用 GPT-2，我们通过数值演示证明了低温和高温两种状态下大型语言模型产生的句子的差异不是平滑变化的，而是具有奇异、发散的统计特征，且关键行为随着过渡温度出现，这些关键行为在自然语言数据集中也有表现。我们还讨论了几个度量临界性质的统计量对于评估大型语言模型的性能应该是有用的。

Abstract

The performance of large language models (LLMs) strongly depends on the \textit{temperature} parameter. Empirically, at very low temperatures, LLMs generate sentences with clear repetitive structures, while at ve

large language models temperature parameter performance phase transition critical behaviors

发现论文，激发创造

大型语言模型输出分布的相变

通过统计距离量化输出生成中的分布变化，本研究利用物理学界提出的自动检测相变的统计方法，成功地将其应用于大型语言模型中，以发现新的行为状态和未探索的转变。

May, 2024

大语言模型中的阶段转变的简单解释与列表译码

大型语言模型的性能表现呈现阶段性转变现象，此现象存在临界阈值与传染疾病的基本再生数量相关。采用列表解码器可有效控制候选序列的数量。

Mar, 2023

温度是大语言模型的创造力参数吗？

使用具有预定固定上下文、模型和提示的叙述生成任务，我们对不同温度值下大型语言模型（LLMs）的输出进行实证分析，以检验温度参数是否能够调节创造力，发现温度与新颖性弱相关、与不连贯性中度相关，但与连贯性和典型性无关；然而，温度对创造力的影响比 “创造力参数” 主张所表达的更微妙和弱，总体结果表明，随着温度升高，LLM 生成的输出略微更为新颖。最后，我们讨论了一些想法，以实现更为可控的 LLM 创造力，而不是仅仅依靠改变温度参数的机会性。

May, 2024

语言模型的核心数据规模：一种全面理解的视角

通过研究数据规模，我们发现了语言模型从快速记忆到慢速泛化的临界点，提出了数据效率假设并确定了语言模型训练中的数据不足、充足和过剩阶段。我们开发了一种配置方法来稳定地在简化语言模型中达到这种理解。实验结果显示，只有当语言模型达到一定的关键尺寸时才会发生泛化，我们对样本和模型进行了分析，验证了数据效率假设。我们的研究深化了对语言模型训练的理解，并提供了一个新的视角来解释数据在语言模型学习机制中的作用。

Jan, 2024

时间机器 GPT

大型语言模型（LLMs）通常在广泛的、时间不加区分的文本语料库上进行训练，反映了缺乏带有时间元数据的数据集。本文提出了一种新的方法：一系列时间点的 LLMs，称为 Time Machine GPT（TiMaGPT），专门设计为非预测性的。这确保它们对未来的事实信息和语言变化保持不知情，这种策略对于理解语言的演化以及在动态环境下应用模型（如时间序列预测）尤为重要。我们提供模型和训练数据集的访问权限。

Apr, 2024

大语言模型新时代：先悲剧，后解析，历史再次重演

自 2005 年开始的大型 $n$-gram 模型时代，我们从历史角度寻求灵感，以指导 NLP 研究人员在 LLMs 升级的领域继续做出有意义的贡献，并确定了第一个时代的持久教训，包括硬件进步塑造规模的可用性和重要性的首要性，自动化和人工的质量评估迫在眉睫的挑战，数据仍然是许多有意义应用的瓶颈问题，基于实际使用的有意义评估仍然是一个未解决的问题，以及仍然有空间进行猜测性方法。

Nov, 2023

大型语言模型：一份调查报告

对大型语言模型（LLMs）进行了综述，包括三个流行的 LLM 系列（GPT，LLaMA，PaLM）的特点、贡献和局限性，同时讨论了构建和增强 LLMs 的技术、为 LLM 训练、微调和评估准备的常用数据集以及常用的 LLM 评估指标，最后讨论了未来的挑战和研究方向。

Feb, 2024

大型 GPT 模型的问题：深入研究语言能力与心理语言学度量之间的关系

通过训练不同大小的 GPT-like 语言模型并在挑战任务（BLiMP，GLUE，MSGS）和阅读时预测任务上进行评估，我们发现 LM 大小与所有三个挑战任务的性能呈正相关，而在使用 LM 意外性作为预测变量的线性混合效应模型的阅读时间拟合上，发现 LM 大小呈负相关。这表明，模拟处理的努力和语言能力可能需要与在发展上合理的语料库上训练 GPT-like 语言模型有所不同的方法。

Nov, 2023

模型痴呆：生成数据使模型遗忘

介绍了大型语言模型的发展并探讨了模型生成内容在训练中产生的影响，它导致原始内容分布的尾部消失并称之为模型失忆现象 (model dementia)，此现象在各种生成模型中普遍存在，为了利用从网络中爬取的大规模数据所获得的收益，我们必须认真对待它。

May, 2023

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023