大语言模型中的阶段转变的简单解释与列表译码
使用 GPT-2,我们通过数值演示证明了低温和高温两种状态下大型语言模型产生的句子的差异不是平滑变化的,而是具有奇异、发散的统计特征,且关键行为随着过渡温度出现,这些关键行为在自然语言数据集中也有表现。我们还讨论了几个度量临界性质的统计量对于评估大型语言模型的性能应该是有用的。
Jun, 2024
大语言模型的广泛应用使得识别它们的优势和局限性变得重要。我们主张,为了全面理解这些系统,我们需要考虑它们在训练中解决的问题:互联网文本的下一个词预测。通过认识到这个任务所带来的压力,我们可以对大语言模型采用的策略进行预测,从而推断它们的成功或失败。这种方法,我们称之为目的论方法,使我们能够确定三个因素,我们假设这些因素会影响大语言模型的准确性:执行任务的概率、目标输出的概率和提供的输入的概率。我们预测,当这些概率较高时,大语言模型的准确性会更高,而当概率较低时,即使在确定性环境下,概率也不应该起作用。为了验证我们的预测,我们对两个大语言模型(GPT-3.5 和 GPT-4)进行了十一项任务的评估,我们找到了强有力的证据表明大语言模型受到我们假设的概率影响的方式。在许多情况下,实验揭示了令人惊讶的失效模式。例如,当输出是高概率单词序列时,GPT-4 解码简单密码的准确率为 51%,但当输出是低概率时,准确率为 13%。这些结果表明 AI 从业者在低概率情况下使用大语言模型时需要谨慎。更广泛地说,我们得出结论,我们不应该把大语言模型评估为人类,而应该把它们看作一类独特的系统 —— 这类系统经过了自己特定的压力塑造。
Sep, 2023
通过大规模采样在解码阶段引入 PassUntil 评估策略,本研究量化了任务性能的扩展规律并发现了突现能力的具体证据,从而推翻了有关突现能力产生的常见 “多步推理假设”,提出了一种符合观察到的扩展曲线的新假设。
Oct, 2023
该论文调查了大型语言模型的八个潜在问题,包括其预测能力的增强,不可预测的行为的出现,对外部世界的学习和使用表示,行为引导技术的不可靠性,内部工作方式的解释困难性,性能上界不是人类任务表现,不一定表达其创建者或网络文本编码的价值观,与 LLMs 的简短交往经常是误导性的。
Apr, 2023
利用密度演化分析,我们提出了一种数学理论来解释学习技能的产生,当训练文本的大小与技能数量的比例超过一定阈值时,展示了学习技能的出现。在训练完成后,我们提出了一种语义压缩方法,并讨论了其在语义通信中的应用。
Apr, 2024
预训练的大型语言模型(LLMs)在进行零 - shot 任务(包括时间序列预测)时表现出惊人的效果,本文研究了 LLMs 在从事受物理规律控制的动力系统情景下外推行为的能力,结果显示 LLaMA2 在无需微调或提示工程的情况下能准确预测动力系统时间序列,此外,学习到的物理规律的准确性随输入环境窗口长度的增加而增加,揭示了一种上下文版本的神经缩放定律,并提出了一种灵活高效的算法,可直接从 LLMs 中提取多位数的概率密度函数。
Feb, 2024
通过对语言模型的参数集和训练语料库进行扩展,可以产生新的技能,该现象对于 AI 产品的发展具有重要推动作用。本文采用简单的统计框架和知名的扩展定律分析了新技能的出现,揭示了预训练模型在学习过程中的高效性。
Jul, 2023
使用 Confident Adaptive Language Modeling(CALM)动态分配不同量的计算资源,早期退出解码以减少计算,从而在维持高性能的同时最多可提速三倍,理论分析和实验表明其在减少计算方面的有效性。
Jul, 2022