利用深度语言模型与人脑之间的相似性,以模型为基础的方法成功地复制了一项神经元相关语言研究,比较了听取常规和乱序叙述的七名受试者的功能磁共振成像,并进一步扩展和精确到305名听取4.1小时叙述故事的个体的脑信号,从而为大规模且灵活地分析语言的神经基础铺平了道路。
Oct, 2021
本文介绍了最近关于预训练语言模型(PLMs)的新进展,重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面,并讨论了未来研究的问题和方向。
Mar, 2023
研究人员调查了超过30个研究、10个数据集和8个测量方法,发现大脑和语言模型激活有一些结构相似性,但现有证据还不充分,需要更多研究。
Jun, 2023
通过研究使用大型语言模型(LLMs)探索人工神经处理和语言理解之间相似性的因素,我们发现随着LLMs在基准任务上性能的提高,它们不仅在预测LLM嵌入的神经相应性时表现出更高的脑部相似性,而且它们的分层特征提取路径与大脑的映射更为密切,并且使用较少的层进行相同的编码。此外,我们还比较了不同LLMs的特征提取路径,发现高性能模型在层次化处理机制方面更多地趋同。最后,我们展示了上下文信息在提高模型性能和与大脑相似性方面的重要性,并揭示了大脑和LLMs语言处理的融合特点,为开发更加与人类认知处理密切相关的模型提供了新方向。
Jan, 2024
通过将大型语言模型(LLMs)转换为专家混合(MoE)架构,分析其在处理各种语言时的专家激活模式,探索并发现非语言特定神经元和语言特定激活神经元的存在,并展示了仅利用高频激活神经元可以在保持相当性能的同时加速推理的可能性,这些发现为LLMs的多语言处理机制提供了启示,对指导LLMs的多语言训练和模型修剪具有重要意义。
Feb, 2024
通过新的检测方法 - 语言激活概率熵(LAPE),我们研究了大型语言模型中的Transformer架构,以确定语言特定的区域,并显示了激活或关闭特定语言神经元对大型语言模型输出语言的可控性。
大型语言模型在跨多种语言表现出卓越的性能。本文探讨了大型语言模型处理多语言的方式,提出了一个处理多语言输入的框架,并利用该框架验证其有效性,并展示如何通过该框架有效提升多语言能力。
通过对大型语言模型的解释性、因果干预方法的证据,以及多模态和模块化扩展,最近关于意识最低标准的争议以及在大型语言模型研究中的保密性和可重复性方面的担忧的讨论,该文讨论了大型语言模型及其对人类认知建模的相关性。
May, 2024
使用大型语言模型研究大脑信号,通过测量模型的预测能力和大脑的相似性,关注大脑活动对语言处理的核心元素,并发现过度依赖大脑信号评分可能导致对大型语言模型与大脑相似性的过度解读。
Jun, 2024
通过研究大型语言模型,该论文揭示了语言模型与人类大脑的相似性,重点分析了架构组件中的分词策略和多头注意力以及需求确定性的关键因素,最终提出了一种高度与人类大脑和行为对齐的模型。