预训练语言模型中认知智能的发展
本文介绍了一个对预训练语言模型(PLMs)的普适语言能力进行大规模实证研究的 ElitePLM,并设计了四个评估维度来衡量十种广泛使用的 PLMs,包括记忆、理解、推理和组合。实验结果表明,PLMs 在不同的能力测试中表现出色;下游任务中的微调通常对数据大小和分布敏感;PLMs 在类似任务之间具有出色的可转移性,并且 PLMs 的预测结果在我们的实验中作为开放资源发布,以进行更深入和详细的 PLMs 语言能力分析。这篇论文可以引导未来的工作选择,应用和设计特定任务的 PLMs。
May, 2022
神经语言模型(LM)在许多技术任务上的成功使其潜在相关性作为语言科学理论得以体现,尽管 LM 训练和儿童语言习得之间存在一些明显的差异。本文认为一些用于评估 LM 语法能力的主要基准可能不够严格,并表明基于模板的基准缺乏语言理论和心理学研究中常见的结构多样性。当用小规模数据对儿童语言习得进行建模时,LM 可以轻易地被简单的基准模型匹配。我们提倡使用现成的、经过精心策划的数据集,这些数据集已由大量母语用户进行了梯度可接受性评估,并旨在特别探索语法的结构基础。在这样一种数据集(LI-Adger 数据集)上,LM 在评估句子时与人类语言用户的方式不一致。最后,我们提出了更好地将 LM 与儿童语言习得的实证研究进行联系的建议。
Oct, 2023
研究表明 LLMs(大型语言模型)可以在 Towers of Hanoi 相关任务中生成近乎最优解,体现出计划能力和高效工作记忆利用率,这暗示了一种潜在的执行功能发展,但这些能力相对有限,而非经过充分训练的人类表现更好
May, 2023
本研究旨在探讨大型语言模型是否能够成为认知模型,并发现通过在心理实验数据上微调这些模型,它们能够提供准确的人类行为表示,甚至在两个决策制定领域中表现比传统的认知模型更好。此外,我们展示了它们的表示含有模拟个体受试者行为所需的信息,并演示了在多个任务上进行微调的能力使得大型模型能够预测以前从未见过的任务中人类行为,这表明预先训练的大型模型可以被改进为通用认知模型,从而开辟了颠覆认知心理学和行为科学的新研究方向。
Jun, 2023
使用大型语言模型作为认知模型具有潜力,但需要解决多个重要挑战。本文提出了一种新颖的方法,通过利用计算等效任务和特定任务分布,增强大型语言模型作为决策模型的效用,并展示了在决策制定中的应用。结果表明,预训练大型语言模型在生态有效的算术数据集上可以更好地预测人类行为,显示了与传统认知模型之间的强关联。但将大型语言模型用作认知模型时,需要通过去除预训练数据的实验来进行详细研究。
May, 2024
通过 CogEval 协议系统评估了八种大型语言模型的认知地图和规划能力,发现尽管对于较简单结构的规划任务表现出明显的竞争力,但系统评估揭示了规划任务的显著失效模式,包括无效轨迹的幻觉和陷入循环。这些发现不支持大型语言模型具备即用型规划能力的观点。
Sep, 2023
运用大型语言模型(LLMs)作为认知模型的兴趣日益增加,本研究通过研究 LLMs 在解决算术问题时与儿童的认知偏差,得出结论:LLMs 在文本理解和解决方案规划步骤中表现出类似人类的偏差,但在解决方案执行过程中没有类似的偏差。
Jan, 2024
今天的大型语言模型 (LLMs) 可以生成连贯的,符合语法的、有意义的文本段落,但在如人类思维一样的实际语言使用中,大多数测试需要功能语言能力,从认知神经科学的证据中,我们显示出 LLMs 显示出令人印象深刻(虽然不完美)的正式语言能力的任务,但在需要功能能力的许多测试中失败了。
Jan, 2023
提出了一种采用自适应测试框架评估大型语言模型的方法,该方法可以根据模型的表现动态调整测试问题的难度,从而更准确地估计模型的能力,使得大型语言模型可以与人类进行比较,同时该方法可以使用更少的问题,从而更加高效。对 ChatGPT 等 6 种模型进行了细粒度诊断,并通过不同测试发现 GPT4 模型在主题知识、数理推理和编程方面表现优异,可以达到中等水平学生的认知能力水平。
Jun, 2023
本文利用分类法阐述了如何将外部知识融入预训练语言模型(PLMs)中解决其因缺乏外部知识而导致的推理能力不足问题,以及 KE-PLMs 在 NLU 和 NLG 任务中的应用和未来发展方向。
Nov, 2022