简化规模生成式语言模型中的新能力
通过一系列超过 1000 次实验,我们对包含 60 百万到 1750 亿参数范围内的 18 个模型进行了严格测试,在包括 22 个任务在内的全面任务集上提供了有力证据,表明新兴能力主要可以归因于上下文学习,并没有发现推理能力的出现,从而为我们对于观察到的能力背后的机制提供了宝贵的洞见,并缓解了对于它们使用的安全问题的担忧。
Sep, 2023
针对大型语言模型的研究表明,一些表观的新能力可能是研究人员在分析过程中选择了不同的度量标准而得出的结果,而非模型行为的本质变化,我们在使用简单的数学模型进行确认后得到支持证据。
Apr, 2023
通过对语言模型的参数集和训练语料库进行扩展,可以产生新的技能,该现象对于 AI 产品的发展具有重要推动作用。本文采用简单的统计框架和知名的扩展定律分析了新技能的出现,揭示了预训练模型在学习过程中的高效性。
Jul, 2023
本文研究小规模的语言模型中 pre-training 效果的影响,发现 masked language modeling 对于 1.25M 及以上规模的模型具有优化效果,并建立了 pre-training perplexity 和下游任务 (GLUE benchmark) 表现的强关联性。同时,研究了 downscaling effects,并且观察到 FLOPs 小于 $2.2×10^{15}$ 时,MLM loss 并不随着计算成本 (FLOPs) 的降低而平滑缩小,增加层数并不总是有助于提高下游表现。
May, 2023
大型语言模型(LLM)通过上下文学习(ICL)的关键能力成为 AI 的强大工具,本研究探讨了不同规模的模型在 ILC 行为上的不同性质,并在两个设定下分析了变压器的注意力机制与 ICL 的关系。
May, 2024
该研究探讨了大型语言模型的上下文学习能力及其理论机制,提出了基于自然语言数据中组合操作的信息理论边界,并从语言学角度验证了模型输出中间步骤的成功经验。研究表明,在缩放参数和数据并提示输出中间步骤时,模型能在多项任务中进行有效的上下文学习,这种学习得到的支持与其输入的组成结构有关。
Mar, 2023
通过大规模采样在解码阶段引入 PassUntil 评估策略,本研究量化了任务性能的扩展规律并发现了突现能力的具体证据,从而推翻了有关突现能力产生的常见 “多步推理假设”,提出了一种符合观察到的扩展曲线的新假设。
Oct, 2023
研究对语言建模任务进行训练过程中,随着模型参数规模的增加,Pythia 模型在两项特定任务上的表现会下降,尽管这些模型总体呈现正的标度。这突显了测试模型在所有相关基准上的性能的重要性,即使它们的整体表现有所提升。
May, 2023