翻译之困:语言模型与大脑之间的算法差距
研究神经语言理解基础一直是各种科学研究项目的长期目标,最近的语言建模和神经影像技术的进展为语言的神经生物学调查和构建更好、更类人的语言模型提供了潜在的改进。本文综述了从早期研究将事件相关电位和源于简单语言模型的复杂性度量联系起来的一条线路,到使用大型语料库训练的人工神经网络模型与使用自然刺激的多个模态的神经响应记录相结合的当代研究。
Mar, 2022
本文探讨了使用神经语言模型对大脑活动进行研究的方法,主要研究了测试损失、训练语料库和模型架构对捕捉大脑活动的影响,并提出了未来研究的良好实践建议。
Jul, 2022
本文探讨使用众多的文本数据训练出来的预训练语言机器,对人脑语言理解的预测能力。研究发现,这两者之间的相似性是由下个词的预测机制引起的。作者的实验发现,对机器的语料库进行特定的自然文本刺激文本预测下个词,可以显著提高他们与大脑记录的对齐程度。然而,他们指出与大脑记录对齐的提高不仅仅是由于词汇级别或多词级别语义的改善,他们通过调整词序进一步证实这一点。
Dec, 2022
语言理解是认知科学和计算机科学领域的关键科学问题。本文比较了认知科学和计算机科学在语言理解方面的不同研究问题和方法,并探讨如何将两个领域的洞见结合起来,为构建智能语言模型和研究语言认知机制提供新的启示和展望。
Jan, 2023
研究发现,虽然语言模型和人类在处理语言时存在共同的计算原理,但它们在获取和使用语言方面存在明显差异,本研究通过比较语言模型的表示和人类大脑对语言的反应,发现语言模型并未很好地捕捉到情感理解、比喻语言处理和物理常识等三个现象,通过针对这些现象进行语言模型的细化调整,发现细化调整后的语言模型在这些任务中与人类大脑的反应更加一致,因此我们认为语言模型与人脑之间的差异可能源于语言模型对这些特定类型的知识的不足表示。
Nov, 2023
指导调优对大型语言模型(LLMs)进行调优的普遍方法,能够使其生成更接近自然语言查询的人类响应的输出,在许多情况下在各种测试中实现人类水平的性能。然而,指导调优是否真正使LLMs更加与人类处理语言的方式相似仍不清楚。我们通过两种方式研究指导调优对LLM-human相似性的影响:(1)大脑对齐,即LLM内部表示与人类语言系统的神经活动相似度,(2)行为对齐,即LLM和人类在阅读任务上的行为相似度。我们评估了25个原始版本和经过指导调优的LLMs在涉及人类阅读自然故事和句子的三个数据集上的表现。我们发现指导调优通常使大脑对齐提高了平均6%,但对行为对齐没有类似效果。为了确定影响LLM-brain对齐的因素,我们计算了LLMs的大脑对齐与各种模型特性之间的相关性,如模型大小、各种问题解决能力和需要跨各种领域的世界知识的任务的性能。值得注意的是,我们发现大脑对齐和模型大小(r = 0.95)以及需要世界知识的任务的表现(r = 0.81)之间存在强正相关。我们的结果表明,指导调优LLMs可以改善世界知识表示和大脑对齐,这表明在LLMs中编码世界知识的机制也可以改善与人类大脑的表征对齐。
Dec, 2023
大型语言模型,如GPT-4,在广泛的基于语言的任务中取得了显著的熟练度,这些任务中有些传统上与人类智能的标志相关联。这引发了关于我们能否将任何语言模型归属于语言或认知能力的程度的持续争议。本文是两篇相关论文的第一部分,旨在为哲学家提供关于语言模型的介绍,并对其与哲学、认知科学、人工智能和语言学领域中经典辩论的重要性进行主观调查。我们涵盖的主题包括语言的组成性、语言习得、语义能力、基础、世界模型和文化知识的传输。我们认为,语言模型的成功挑战了人们对人工神经网络的一些长期假设。然而,我们还强调了进一步的实证研究以更好地了解它们的内部机制的需要。这为第二部分的相关论文提供了基础,第二部分将探讨关于语言模型最新发展引发的新的实证方法和哲学问题。
Jan, 2024
通过研究使用大型语言模型(LLMs)探索人工神经处理和语言理解之间相似性的因素,我们发现随着LLMs在基准任务上性能的提高,它们不仅在预测LLM嵌入的神经相应性时表现出更高的脑部相似性,而且它们的分层特征提取路径与大脑的映射更为密切,并且使用较少的层进行相同的编码。此外,我们还比较了不同LLMs的特征提取路径,发现高性能模型在层次化处理机制方面更多地趋同。最后,我们展示了上下文信息在提高模型性能和与大脑相似性方面的重要性,并揭示了大脑和LLMs语言处理的融合特点,为开发更加与人类认知处理密切相关的模型提供了新方向。
Jan, 2024
通过研究大型语言模型,该论文揭示了语言模型与人类大脑的相似性,重点分析了架构组件中的分词策略和多头注意力以及需求确定性的关键因素,最终提出了一种高度与人类大脑和行为对齐的模型。
Jun, 2024