逻辑数学符号系统处理的神经相关性更类似于空间认知而非自然语言处理
人类学习和认知中的类比推理被认为是核心。最近的研究比较了人类与大型语言模型(LLMs)在抽象符号操作任务(如字母串类比)上的类比推理能力。然而,这些研究在对语义有意义的符号(如自然语言词汇)进行类比推理时基本上被忽略了。这种将语言与非语言领域相关联的类比能力,我们称之为语义结构映射,被认为在语言习得和更广泛的认知发展中起着关键作用。我们在要求从一个领域向另一个领域转移语义结构和内容的类比推理任务上对人类与 LLMs 进行了测试。先进的 LLMs 在许多任务变体上与人类表现相匹配。然而,人类和 LLMs 对某些任务变体和语义干扰有不同的反应。总的来说,我们的数据表明 LLMs 在这些重要的认知任务上正在接近人类水平的表现,但还不完全接近人类。
Jun, 2024
这篇论文研究了最新的语言模型(LLMs)在数学推理中所具备的元认知知识,包括能够给数学问题分配合理的技能标签,并通过语义聚类获取更粗略的技能标签。通过相关实验,验证了这些技能标签对 LLMs 的推理过程的意义和相关性。
May, 2024
大型语言模型(LLM)在文本理解和逻辑推理方面表现出了非凡的能力,在多个认知任务中实现或甚至超过了人类水平的表现。本文提出了一种新的方法,通过将 LLM 表示与人类认知信号进行桥接,评估 LLM 在模拟认知语言处理方面的有效性。我们采用了表示相似性分析(RSA)来衡量 16 个主流 LLM 与脑部 fMRI 信号之间的对齐程度。实证研究调查了多种因素(如模型扩展、对齐训练、指令附加)对 LLM - 脑信号对齐的影响。实验结果表明,模型扩展与 LLM - 脑信号相似性呈正相关,对齐训练可以显著提高 LLM - 脑信号相似性。此外,广泛的 LLM 评估(如 MMLU,Chatbot Arena)的性能与 LLM - 脑信号相似性高度相关。
Feb, 2024
大型语言模型(LLMs)展现出在各种任务中的卓越能力。我们探索 LLMs 对于一种特别显著的基于实际距离的知识,即空间关系的表示。通过设计自然语言导航任务,我们评估了 LLMs(特别是 GPT-3.5-turbo,GPT-4 和 Llama2 系列模型)在表示和推理空间结构方面的能力,并将这些能力与人类在相同任务上的表现进行比较。这些任务揭示了 LLMs 在不同空间结构(包括正方形、六边形和三角形网格、环和树形结构)中的表现变异性。我们还发现,类似于人类,LLMs 利用对象名称作为地标来维护空间地图。最后,在广泛的错误分析中,我们发现 LLMs 的错误反映了空间和非空间因素。这些发现表明,LLMs 似乎能够隐含地捕捉到空间结构的某些方面,但仍有改进空间。
Oct, 2023
今天的大型语言模型 (LLMs) 可以生成连贯的,符合语法的、有意义的文本段落,但在如人类思维一样的实际语言使用中,大多数测试需要功能语言能力,从认知神经科学的证据中,我们显示出 LLMs 显示出令人印象深刻(虽然不完美)的正式语言能力的任务,但在需要功能能力的许多测试中失败了。
Jan, 2023
大型语言模型(LLMs)在数学和算法任务中展现日益增长的能力,但它们的几何推理技能尚未被充分探索。我们研究了 LLMs 在构造性几何问题求解上的能力,这是人类数学推理发展中最基本的一步。我们的工作揭示了当前 LLMs 面临的显著挑战,尽管在类似领域取得了很多成功。LLMs 在目标变量选择上存在偏见,并且在二维空间关系方面遇到困难,常常误代和产生对象及其放置的幻觉。为此,我们介绍了一个基于 LLMs 的多智能体系统框架,通过进行内部对话来增强它们现有的推理潜力。这项工作突出了 LLMs 在几何推理中目前的局限性,并通过自我纠正、协作和多样化角色专业化来改善几何推理能力。
Feb, 2024
本文探讨了人类学习机制中的组合性问题,并扩展了先前针对自然语言的神经网络研究到数学推理领域。研究发现,神经网络不仅能够学习到训练数据中的结构关系,而且能够将这些知识用于指导复合意义的组合。
May, 2021
尽管大型语言模型在人工智能研究中广泛使用,但其在模型具象问题上的探讨仍未得到充分挖掘,这使它们与感知直接影响物理动作的机器人具象系统相区别。本研究通过对人类关于语言基本空间构建模块的内隐直觉是否被大型语言模型有效捕捉来进行了调查。我们借鉴早期感知运动经验中发展的空间认知基础的见解,通过再现三个心理语言学实验来引导我们的探索。令人惊讶的是,模型输出与人类反应之间出现了相关性,揭示了在没有具体联系到具象经验的情况下的适应能力。值得注意的区别包括极化的语言模型反应和视觉语言模型中降低的相关性。本研究对于深入理解语言、空间经验和大型语言模型所进行的计算之间的相互作用做出了贡献。
Feb, 2024