大型语言模型在大脑中的映射是什么?反对过度依赖脑部评分的案例
利用大型语言模型(LLMs)和人脑 / 神经系统之间的功能相似性评估指标 “Brainscore”,通过构建人类 fMRI 数据和多个 LLMs 及其未训练对象的拓扑特征,进行了线性回归模型训练和统计分析,揭示了在多个感兴趣脑区和半球中解释现有 brainscores 的独特特征组合,对推进可解释的机器学习(iML)研究具有重要意义。这项研究是首次尝试在这个跨学科领域理解这一创新指标 brainscore 的努力。
May, 2024
本文探讨了使用神经语言模型对大脑活动进行研究的方法,主要研究了测试损失、训练语料库和模型架构对捕捉大脑活动的影响,并提出了未来研究的良好实践建议。
Jul, 2022
大型语言模型(LLM)在文本理解和逻辑推理方面表现出了非凡的能力,在多个认知任务中实现或甚至超过了人类水平的表现。本文提出了一种新的方法,通过将 LLM 表示与人类认知信号进行桥接,评估 LLM 在模拟认知语言处理方面的有效性。我们采用了表示相似性分析(RSA)来衡量 16 个主流 LLM 与脑部 fMRI 信号之间的对齐程度。实证研究调查了多种因素(如模型扩展、对齐训练、指令附加)对 LLM - 脑信号对齐的影响。实验结果表明,模型扩展与 LLM - 脑信号相似性呈正相关,对齐训练可以显著提高 LLM - 脑信号相似性。此外,广泛的 LLM 评估(如 MMLU,Chatbot Arena)的性能与 LLM - 脑信号相似性高度相关。
Feb, 2024
通过大规模语言模型(LLMs)来预测神经科学实验结果,发现 LLMs 在预测实验结果方面超过了专家,并且经过优化的神经科学文献模型 BrainGPT 表现更好,这预示着人类与 LLMs 共同合作进行科学发现的未来。
Mar, 2024
通过研究使用大型语言模型(LLMs)探索人工神经处理和语言理解之间相似性的因素,我们发现随着 LLMs 在基准任务上性能的提高,它们不仅在预测 LLM 嵌入的神经相应性时表现出更高的脑部相似性,而且它们的分层特征提取路径与大脑的映射更为密切,并且使用较少的层进行相同的编码。此外,我们还比较了不同 LLMs 的特征提取路径,发现高性能模型在层次化处理机制方面更多地趋同。最后,我们展示了上下文信息在提高模型性能和与大脑相似性方面的重要性,并揭示了大脑和 LLMs 语言处理的融合特点,为开发更加与人类认知处理密切相关的模型提供了新方向。
Jan, 2024
研究发现,虽然语言模型和人类在处理语言时存在共同的计算原理,但它们在获取和使用语言方面存在明显差异,本研究通过比较语言模型的表示和人类大脑对语言的反应,发现语言模型并未很好地捕捉到情感理解、比喻语言处理和物理常识等三个现象,通过针对这些现象进行语言模型的细化调整,发现细化调整后的语言模型在这些任务中与人类大脑的反应更加一致,因此我们认为语言模型与人脑之间的差异可能源于语言模型对这些特定类型的知识的不足表示。
Nov, 2023
利用贝叶斯统计模型,研究了大型语言模型(LLMs)在人类行为预测方面的类人特性,发现 LLMs 不能准确捕获人类数据的各项细节,但在聚合和条件水平的预测方面可以有效适配人类数据,显示出某些不同的方法可以使其得到充分的分布式预测。
Jun, 2024
该论文调查了大型语言模型的八个潜在问题,包括其预测能力的增强,不可预测的行为的出现,对外部世界的学习和使用表示,行为引导技术的不可靠性,内部工作方式的解释困难性,性能上界不是人类任务表现,不一定表达其创建者或网络文本编码的价值观,与 LLMs 的简短交往经常是误导性的。
Apr, 2023