针对大型语言模型的研究表明,一些表观的新能力可能是研究人员在分析过程中选择了不同的度量标准而得出的结果,而非模型行为的本质变化,我们在使用简单的数学模型进行确认后得到支持证据。
Apr, 2023
通过一系列超过 1000 次实验,我们对包含 60 百万到 1750 亿参数范围内的 18 个模型进行了严格测试,在包括 22 个任务在内的全面任务集上提供了有力证据,表明新兴能力主要可以归因于上下文学习,并没有发现推理能力的出现,从而为我们对于观察到的能力背后的机制提供了宝贵的洞见,并缓解了对于它们使用的安全问题的担忧。
Sep, 2023
通过预训练损失来重新定义新能力,发现较低预训练损失的模型呈现出的性能趋势不可被简单地推断,表现出较高的新能力。
Mar, 2024
通过简化预训练数据,研究表明在训练数据规模较小的模型上,也能出现零样本学习能力,并且模型规模大小与计算资源、数据集大小之间呈现幂律关系。
Apr, 2024
通过大规模采样在解码阶段引入 PassUntil 评估策略,本研究量化了任务性能的扩展规律并发现了突现能力的具体证据,从而推翻了有关突现能力产生的常见 “多步推理假设”,提出了一种符合观察到的扩展曲线的新假设。
Oct, 2023
大型语言模型的能力不仅局限于预测人类书写文本的下一句,还包括间接获取能力、综合能力的发展、可预测性以及与人类认知的关系。
Aug, 2023
通过对语言模型的参数集和训练语料库进行扩展,可以产生新的技能,该现象对于 AI 产品的发展具有重要推动作用。本文采用简单的统计框架和知名的扩展定律分析了新技能的出现,揭示了预训练模型在学习过程中的高效性。
Jul, 2023
本文研究表明,通过使用大数据和大模型训练的 LLMs 可以准确评估语言的边际分布,并利用这一分布进行贝叶斯推理来分析语言间的稀疏结构,从而提高语言理解、上下文学习、思维链引导和有效指导的能力。
通过研究不同规模的模型,我们发现在大型模型中达到更高性能的关键因素是单语义神经元的减少,提出了一种主动抑制单语义性的两阶段方法,并通过理论分析和实验证明了其有效性。该方法的适用性不限于大规模,但对于研究部门来说,将该研究扩展至非常大规模的数据集是吸引人的,但受到资源限制而不可能实现,期待 AI 公司的合作。
Dec, 2023
对大型语言模型的现象能力进行解释和分析的广泛调查,包括宏观和微观两个层面的研究,并强调了相关挑战和未来研究的潜在方向。
Nov, 2023