大语言模型中涌现能力的潜空间理论
利用密度演化分析,我们提出了一种数学理论来解释学习技能的产生,当训练文本的大小与技能数量的比例超过一定阈值时,展示了学习技能的出现。在训练完成后,我们提出了一种语义压缩方法,并讨论了其在语义通信中的应用。
Apr, 2024
通过对语言模型的参数集和训练语料库进行扩展,可以产生新的技能,该现象对于 AI 产品的发展具有重要推动作用。本文采用简单的统计框架和知名的扩展定律分析了新技能的出现,揭示了预训练模型在学习过程中的高效性。
Jul, 2023
针对大型语言模型的研究表明,一些表观的新能力可能是研究人员在分析过程中选择了不同的度量标准而得出的结果,而非模型行为的本质变化,我们在使用简单的数学模型进行确认后得到支持证据。
Apr, 2023
本文研究了量化对语言模型的影响,重点关注了量化对模型的新兴能力、上下文学习、思维链推理和指令跟随等的影响,实验证明 4 位量化模型仍然存在这些新兴能力,而 2 位模型在这些能力测试中遭受严重性能下降,通过模型微调和特定分析方法,本文揭示了量化对新兴能力影响的一系列重要发现,并为极低位量化提供了思路。
Jul, 2023
通过一系列超过 1000 次实验,我们对包含 60 百万到 1750 亿参数范围内的 18 个模型进行了严格测试,在包括 22 个任务在内的全面任务集上提供了有力证据,表明新兴能力主要可以归因于上下文学习,并没有发现推理能力的出现,从而为我们对于观察到的能力背后的机制提供了宝贵的洞见,并缓解了对于它们使用的安全问题的担忧。
Sep, 2023
本文考察了大型语言模型对语言习得中的概率关系和上下文敏感性建模的能力,并针对基于强度先验条件的语境下的 pragmatism utterances 进行了阈值估计实验。结果表明该方法成功地推导出了一些复杂 pragmatic utterances 相关的人类类似信息分布,但对于否定的组成较为困难。
May, 2023