大型语言模型中语言和思维的分离:认知角度
当前大型语言模型(LLMs)在生成符合语法、流畅的文本方面无与伦比。这篇论文针对 LLMs 的能力进行了辩论,并通过批判性评估三个经常在批评中出现的观点来展示 LLMs 仍需更多细化。其次,文章从实证和理论的角度提出了对 LLMs 中 “真正” 的理解和意向性的实用观点,并讨论了在何种情况下将心理状态归因于 LLMs 对于这一日益重要的技术在社会中具有实用的哲学背景。
Oct, 2023
大型语言模型(LLMs)的发展促使人们对其推理和问题解决能力产生了更大的兴趣。本研究调查了几种 LLMs 是否能够解决认知科学文献中一种经典类型的演绎推理问题。研究发现,这些被测试的 LLMs 在传统形式上解决这些问题的能力有限。我们进行了后续实验,探究了更改展示格式和内容是否能改善模型性能。尽管我们发现了条件之间的绩效差异,但总体性能并未提高。此外,我们还发现性能与展示格式和内容以出人意料的方式相互作用,与人类表现有所不同。总的来说,我们的结果表明 LLMs 具有独特的推理偏见,其只能部分预测人类的推理表现。
Sep, 2023
通过进行类比研究,本文发现大型语言模型中存在一个与语言能力对应的核心区域,占据总模型参数的约 1%。该核心区域表现出显著的维度依赖性,对特定维度上的单个参数的扰动可能导致语言能力的丧失。此外,我们观察到语言能力的提高并不一定伴随模型知识水平的提升,这可能暗示着与语言区分离的领域知识区域存在。总的来说,探索大型语言模型的功能区域为我们提供了有关其智能基础的见解。未来,我们将继续研究语言模型内部的知识区域及其之间的互动。
Oct, 2023
大型语言模型(LLM)在文本理解和逻辑推理方面表现出了非凡的能力,在多个认知任务中实现或甚至超过了人类水平的表现。本文提出了一种新的方法,通过将 LLM 表示与人类认知信号进行桥接,评估 LLM 在模拟认知语言处理方面的有效性。我们采用了表示相似性分析(RSA)来衡量 16 个主流 LLM 与脑部 fMRI 信号之间的对齐程度。实证研究调查了多种因素(如模型扩展、对齐训练、指令附加)对 LLM - 脑信号对齐的影响。实验结果表明,模型扩展与 LLM - 脑信号相似性呈正相关,对齐训练可以显著提高 LLM - 脑信号相似性。此外,广泛的 LLM 评估(如 MMLU,Chatbot Arena)的性能与 LLM - 脑信号相似性高度相关。
Feb, 2024
研究表明 LLMs(大型语言模型)可以在 Towers of Hanoi 相关任务中生成近乎最优解,体现出计划能力和高效工作记忆利用率,这暗示了一种潜在的执行功能发展,但这些能力相对有限,而非经过充分训练的人类表现更好
May, 2023
神经语言模型(LM)在许多技术任务上的成功使其潜在相关性作为语言科学理论得以体现,尽管 LM 训练和儿童语言习得之间存在一些明显的差异。本文认为一些用于评估 LM 语法能力的主要基准可能不够严格,并表明基于模板的基准缺乏语言理论和心理学研究中常见的结构多样性。当用小规模数据对儿童语言习得进行建模时,LM 可以轻易地被简单的基准模型匹配。我们提倡使用现成的、经过精心策划的数据集,这些数据集已由大量母语用户进行了梯度可接受性评估,并旨在特别探索语法的结构基础。在这样一种数据集(LI-Adger 数据集)上,LM 在评估句子时与人类语言用户的方式不一致。最后,我们提出了更好地将 LM 与儿童语言习得的实证研究进行联系的建议。
Oct, 2023
最近大规模语言模型能力的进步引发了对其评估的新浪潮,这篇研究工作通过在自然语言和形式语言之间的相互转换来验证大规模语言模型理解和生成结构化逻辑形式的能力,实验证明现今最先进的大规模语言模型在理解逻辑形式方面整体上接近人类水平,但在生成正确逻辑形式方面仍有改进的空间,使用大规模语言模型生成更自然的语言训练数据以增强小型模型的效果更好,同时结果还表明模型对不同形式语言表现出显著的敏感性,总体而言,形式化程度较低、更接近自然语言的形式语言对大规模语言模型更友好。
Jan, 2024
该研究通过分析和比较大型语言模型(LLMs)与马丁・海德格尔 “实用存在” 和 “现成存在” 概念之间的相似之处,以及通过基于海德格尔对真理的概念的结构性分析,探讨了 LLMs 在人类推理过程中的位置和局限性,发现尽管 LLMs 在某些推理能力上表现出色,但其与人类智力能力的匹敌还未实现。此研究丰富了我们对 LLMs 的理解,并推动了人工智能潜力与限制的讨论,为未来对人工智能发展趋势的探索铺平了道路。
Mar, 2024
评估大语言模型在教育中的功效,特别是在口语学习领域,引入新的多选题数据集评估模型在理解和应用口语知识方面的表现,研究不同提示技术对模型性能的影响,发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解,但在解决现实世界问题的推理方面存在限制,并初步探讨了对话交流的发现。
Aug, 2023
该研究以百川 - 7B 和百川 - 33B 为焦点,深入探讨大型语言模型的认知和表达能力在预训练、监督微调和强化学习三个关键阶段的发展规律,揭示了认知能力在预训练阶段建立,而表达能力主要在微调和强化学习阶段提升的顺序性发展模式,并探索了这些差异发展轨迹与 LLMs 的架构设计之间的理论基础,同时评估了少样本学习和重复采样等优化无关策略对认知和表达能力之间的桥梁作用,从而为培训过程的可解释性和可控性提供了有价值的洞见。
May, 2024