大语言模型中涌现能力的潜空间理论

Apr, 2023

大语言模型中涌现能力的潜空间理论

A Latent Space Theory for Emergent Abilities in Large Language Models

Hui Jiang

TL;DR本文研究表明，通过使用大数据和大模型训练的 LLMs 可以准确评估语言的边际分布，并利用这一分布进行贝叶斯推理来分析语言间的稀疏结构，从而提高语言理解、上下文学习、思维链引导和有效指导的能力。

Abstract

languages are not created randomly but rather to communicate information. There is a strong association between languages and their underlying meanings, resulting in a →

languages sparse joint distribution llms bayesian inference language understanding

发现论文，激发创造

大型语言模型的新兴能力

探讨了语言模型的可扩展性问题，发现通过扩展语言模型的规模，可以实现一些新的能力和提升性能。

Jun, 2022

抽象学习者学习语义语言的数学理论

利用密度演化分析，我们提出了一种数学理论来解释学习技能的产生，当训练文本的大小与技能数量的比例超过一定阈值时，展示了学习技能的出现。在训练完成后，我们提出了一种语义压缩方法，并讨论了其在语义通信中的应用。

Apr, 2024

LLM 的神秘与魅力：对新能力的解释与分析的全面调查

对大型语言模型的现象能力进行解释和分析的广泛调查，包括宏观和微观两个层面的研究，并强调了相关挑战和未来研究的潜在方向。

Nov, 2023

语言模型中复杂技能的出现理论

通过对语言模型的参数集和训练语料库进行扩展，可以产生新的技能，该现象对于 AI 产品的发展具有重要推动作用。本文采用简单的统计框架和知名的扩展定律分析了新技能的出现，揭示了预训练模型在学习过程中的高效性。

Jul, 2023

用语言模型区分可知与不可知

通过大型语言模型中的线性探针和无监督方法，研究确定性认知不确定性与随机认知不确定性的可行性，为多样化实际场景中模型置信度提供更详细的指标。

Feb, 2024

大型语言模型的新兴能力是否是海市蜃楼？

针对大型语言模型的研究表明，一些表观的新能力可能是研究人员在分析过程中选择了不同的度量标准而得出的结果，而非模型行为的本质变化，我们在使用简单的数学模型进行确认后得到支持证据。

Apr, 2023

量子化大型语言模型中是否存在突现能力：一项实证研究

本文研究了量化对语言模型的影响，重点关注了量化对模型的新兴能力、上下文学习、思维链推理和指令跟随等的影响，实验证明 4 位量化模型仍然存在这些新兴能力，而 2 位模型在这些能力测试中遭受严重性能下降，通过模型微调和特定分析方法，本文揭示了量化对新兴能力影响的一系列重要发现，并为极低位量化提供了思路。

Jul, 2023

简化规模生成式语言模型中的新能力

通过简化预训练数据，研究表明在训练数据规模较小的模型上，也能出现零样本学习能力，并且模型规模大小与计算资源、数据集大小之间呈现幂律关系。

Apr, 2024

大型语言模型中的突现能力是否只是针对上下文的学习？

通过一系列超过 1000 次实验，我们对包含 60 百万到 1750 亿参数范围内的 18 个模型进行了严格测试，在包括 22 个任务在内的全面任务集上提供了有力证据，表明新兴能力主要可以归因于上下文学习，并没有发现推理能力的出现，从而为我们对于观察到的能力背后的机制提供了宝贵的洞见，并缓解了对于它们使用的安全问题的担忧。

Sep, 2023

评估统计语言模型作为实用推理器

本文考察了大型语言模型对语言习得中的概率关系和上下文敏感性建模的能力，并针对基于强度先验条件的语境下的 pragmatism utterances 进行了阈值估计实验。结果表明该方法成功地推导出了一些复杂 pragmatic utterances 相关的人类类似信息分布，但对于否定的组成较为困难。

May, 2023