针对大型语言模型的研究表明,一些表观的新能力可能是研究人员在分析过程中选择了不同的度量标准而得出的结果,而非模型行为的本质变化,我们在使用简单的数学模型进行确认后得到支持证据。
Apr, 2023
探讨了语言模型的可扩展性问题,发现通过扩展语言模型的规模,可以实现一些新的能力和提升性能。
Jun, 2022
通过一系列超过 1000 次实验,我们对包含 60 百万到 1750 亿参数范围内的 18 个模型进行了严格测试,在包括 22 个任务在内的全面任务集上提供了有力证据,表明新兴能力主要可以归因于上下文学习,并没有发现推理能力的出现,从而为我们对于观察到的能力背后的机制提供了宝贵的洞见,并缓解了对于它们使用的安全问题的担忧。
Sep, 2023
通过简化预训练数据,研究表明在训练数据规模较小的模型上,也能出现零样本学习能力,并且模型规模大小与计算资源、数据集大小之间呈现幂律关系。
Apr, 2024
本文研究了量化对语言模型的影响,重点关注了量化对模型的新兴能力、上下文学习、思维链推理和指令跟随等的影响,实验证明 4 位量化模型仍然存在这些新兴能力,而 2 位模型在这些能力测试中遭受严重性能下降,通过模型微调和特定分析方法,本文揭示了量化对新兴能力影响的一系列重要发现,并为极低位量化提供了思路。
Jul, 2023
通过大规模采样在解码阶段引入 PassUntil 评估策略,本研究量化了任务性能的扩展规律并发现了突现能力的具体证据,从而推翻了有关突现能力产生的常见 “多步推理假设”,提出了一种符合观察到的扩展曲线的新假设。
Oct, 2023
对大型语言模型的现象能力进行解释和分析的广泛调查,包括宏观和微观两个层面的研究,并强调了相关挑战和未来研究的潜在方向。
Nov, 2023
通过对语言模型的参数集和训练语料库进行扩展,可以产生新的技能,该现象对于 AI 产品的发展具有重要推动作用。本文采用简单的统计框架和知名的扩展定律分析了新技能的出现,揭示了预训练模型在学习过程中的高效性。
大型语言模型的能力不仅局限于预测人类书写文本的下一句,还包括间接获取能力、综合能力的发展、可预测性以及与人类认知的关系。
Aug, 2023
经验表明,大型预训练语言模型的新认知能力使其成为认知科学理论的候选模型。本研究通过心理测量学测试选择四组任务,对十个热门预训练语言模型进行评估,发现无论模型大小,PLMs 的训练过程在人类认知发展的某个窗口期内表现出最高程度的一致性。在该窗口期之前,训练为模型提供了基础结构,使其能够迅速从经验中学习;而在该窗口期之后,训练似乎更多地用于工程目标而非科学目标。
Jul, 2024