关于大型语言模型的意外能力
通过一系列超过 1000 次实验,我们对包含 60 百万到 1750 亿参数范围内的 18 个模型进行了严格测试,在包括 22 个任务在内的全面任务集上提供了有力证据,表明新兴能力主要可以归因于上下文学习,并没有发现推理能力的出现,从而为我们对于观察到的能力背后的机制提供了宝贵的洞见,并缓解了对于它们使用的安全问题的担忧。
Sep, 2023
通过评估 GPT-4,一个尖端的大型语言模型,在解释塞尔维亚诗歌中提取的新颖文学隐喻时所提供的自然语言解释能力,它未展现出之前接触过这些隐喻的迹象,但提供了详细而深刻的解释,被盲审的人员(不知道涉及 AI 模型的事实)将 GPT-4 生成的隐喻解释评为优于来自一组大学生的解释,这些结果表明 GPT-4 等大语言模型已经获得了解释复杂新颖隐喻的新兴能力。
Aug, 2023
本研究旨在探讨大型语言模型是否能够成为认知模型,并发现通过在心理实验数据上微调这些模型,它们能够提供准确的人类行为表示,甚至在两个决策制定领域中表现比传统的认知模型更好。此外,我们展示了它们的表示含有模拟个体受试者行为所需的信息,并演示了在多个任务上进行微调的能力使得大型模型能够预测以前从未见过的任务中人类行为,这表明预先训练的大型模型可以被改进为通用认知模型,从而开辟了颠覆认知心理学和行为科学的新研究方向。
Jun, 2023
该论文调查了大型语言模型的八个潜在问题,包括其预测能力的增强,不可预测的行为的出现,对外部世界的学习和使用表示,行为引导技术的不可靠性,内部工作方式的解释困难性,性能上界不是人类任务表现,不一定表达其创建者或网络文本编码的价值观,与 LLMs 的简短交往经常是误导性的。
Apr, 2023
针对大型语言模型的研究表明,一些表观的新能力可能是研究人员在分析过程中选择了不同的度量标准而得出的结果,而非模型行为的本质变化,我们在使用简单的数学模型进行确认后得到支持证据。
Apr, 2023
人工智能应用在语言相关任务中表现出巨大潜力,特别是在下一个单词预测领域。我们分析了大型语言模型作为理论信息化目标系统的表示能力与无理论强大机制工具的贡献,并确定了当前开发和利用这些模型中仍然缺失的关键能力。
Jul, 2023
本文调查了大型语言模型是否通过文本预训练会赋予这些模型有助于非语言推理的归纳偏差。通过对 19 个多样化的非语言任务进行试验,包括量化计算、识别正则表达式和对字符串的推理,我们发现预先训练的模型明显优于可比较的非预先训练的神经模型,即使在带有更少参数的情况下进行训练以适应模型正则化效应。同时,我们进一步探讨了不同文本领域对用户体验的影响,并发现即使在预训练多语言文本或计算机代码并生成合成语言的情况下,也可以持续预训练的积极效应。这些发现暗示了预先培训与模型的归纳学习能力之间的深层联系。
Oct, 2022
使用大型语言模型进行科学综合、推理和解释,通过从科学文献综合知识,将其应用于预测分子属性等任务,提高了当前机器学习系统的性能,并能解释其预测结果,将加速科学发现的进程。
Oct, 2023