从损失的角度理解语言模型的新能力

Mar, 2024

从损失的角度理解语言模型的新能力

Understanding Emergent Abilities of Language Models from the Loss Perspective

Zhengxiao Du, Aohan Zeng, Yuxiao Dong, Jie Tang

TL;DR通过预训练损失来重新定义新能力，发现较低预训练损失的模型呈现出的性能趋势不可被简单地推断，表现出较高的新能力。

Abstract

Recent studies have put into question the belief that emergent abilities in language models are exclusive to large models. This skepticism arises from two observations: 1) smaller models can also exhibit high per

emergent abilities language models pre-training loss downstream tasks performance trends

发现论文，激发创造

大型语言模型的新兴能力是否是海市蜃楼？

针对大型语言模型的研究表明，一些表观的新能力可能是研究人员在分析过程中选择了不同的度量标准而得出的结果，而非模型行为的本质变化，我们在使用简单的数学模型进行确认后得到支持证据。

Apr, 2023

大型语言模型的新兴能力

探讨了语言模型的可扩展性问题，发现通过扩展语言模型的规模，可以实现一些新的能力和提升性能。

Jun, 2022

大型语言模型中的突现能力是否只是针对上下文的学习？

通过一系列超过 1000 次实验，我们对包含 60 百万到 1750 亿参数范围内的 18 个模型进行了严格测试，在包括 22 个任务在内的全面任务集上提供了有力证据，表明新兴能力主要可以归因于上下文学习，并没有发现推理能力的出现，从而为我们对于观察到的能力背后的机制提供了宝贵的洞见，并缓解了对于它们使用的安全问题的担忧。

Sep, 2023

简化规模生成式语言模型中的新能力

通过简化预训练数据，研究表明在训练数据规模较小的模型上，也能出现零样本学习能力，并且模型规模大小与计算资源、数据集大小之间呈现幂律关系。

Apr, 2024

量子化大型语言模型中是否存在突现能力：一项实证研究

本文研究了量化对语言模型的影响，重点关注了量化对模型的新兴能力、上下文学习、思维链推理和指令跟随等的影响，实验证明 4 位量化模型仍然存在这些新兴能力，而 2 位模型在这些能力测试中遭受严重性能下降，通过模型微调和特定分析方法，本文揭示了量化对新兴能力影响的一系列重要发现，并为极低位量化提供了思路。

Jul, 2023

解锁可预测的增长能力

通过大规模采样在解码阶段引入 PassUntil 评估策略，本研究量化了任务性能的扩展规律并发现了突现能力的具体证据，从而推翻了有关突现能力产生的常见 “多步推理假设”，提出了一种符合观察到的扩展曲线的新假设。

Oct, 2023

LLM 的神秘与魅力：对新能力的解释与分析的全面调查

对大型语言模型的现象能力进行解释和分析的广泛调查，包括宏观和微观两个层面的研究，并强调了相关挑战和未来研究的潜在方向。

Nov, 2023

语言模型中复杂技能的出现理论

通过对语言模型的参数集和训练语料库进行扩展，可以产生新的技能，该现象对于 AI 产品的发展具有重要推动作用。本文采用简单的统计框架和知名的扩展定律分析了新技能的出现，揭示了预训练模型在学习过程中的高效性。

Jul, 2023

关于大型语言模型的意外能力

大型语言模型的能力不仅局限于预测人类书写文本的下一句，还包括间接获取能力、综合能力的发展、可预测性以及与人类认知的关系。

Aug, 2023

预训练语言模型中认知智能的发展

经验表明，大型预训练语言模型的新认知能力使其成为认知科学理论的候选模型。本研究通过心理测量学测试选择四组任务，对十个热门预训练语言模型进行评估，发现无论模型大小，PLMs 的训练过程在人类认知发展的某个窗口期内表现出最高程度的一致性。在该窗口期之前，训练为模型提供了基础结构，使其能够迅速从经验中学习；而在该窗口期之后，训练似乎更多地用于工程目标而非科学目标。

Jul, 2024