多层次的大型语言模型面向大众

Jul, 2023

Multilevel Large Language Models for Everyone

Yuanhao Gong

TL;DR通过将多个大型语言模型联结在一起，建立一个更大的映射，可以使通用模型和特定领域模型相互关联并进行改进。该研究灵感来自于人脑的功能，特定的大脑皮层区域在低级功能上具有特异性，在高级功能上通过协同工作实现复杂的功能。该多级语言模型在全局级别、领域级别和用户级别上工作，实现高效响应并保护用户隐私，从而减少冗余并取得更好的性能。该研究成果可应用于自然语言处理、计算机视觉、专业助手、商业和医疗等多个领域。

Abstract

large language models have made significant progress in the past few years. However, they are either generic {\it or} field specific, splitting the community into different groups. In this paper, we unify these large la

发现论文，激发创造

基于模型的脑活动分析揭示305名被试语言层次结构

利用深度语言模型与人脑之间的相似性，以模型为基础的方法成功地复制了一项神经元相关语言研究，比较了听取常规和乱序叙述的七名受试者的功能磁共振成像，并进一步扩展和精确到305名听取4.1小时叙述故事的个体的脑信号，从而为大规模且灵活地分析语言的神经基础铺平了道路。

Oct, 2021

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023

利用语言模型绘制大脑地图：一项调查

研究人员调查了超过30个研究、10个数据集和8个测量方法，发现大脑和语言模型激活有一些结构相似性，但现有证据还不充分，需要更多研究。

Jun, 2023

大型语言模型和大脑中的上下文特征提取层次汇聚

通过研究使用大型语言模型（LLMs）探索人工神经处理和语言理解之间相似性的因素，我们发现随着LLMs在基准任务上性能的提高，它们不仅在预测LLM嵌入的神经相应性时表现出更高的脑部相似性，而且它们的分层特征提取路径与大脑的映射更为密切，并且使用较少的层进行相同的编码。此外，我们还比较了不同LLMs的特征提取路径，发现高性能模型在层次化处理机制方面更多地趋同。最后，我们展示了上下文信息在提高模型性能和与大脑相似性方面的重要性，并揭示了大脑和LLMs语言处理的融合特点，为开发更加与人类认知处理密切相关的模型提供了新方向。

Jan, 2024

解密巴别塔：探索大型语言模型中的多语言激活模式

通过将大型语言模型（LLMs）转换为专家混合（MoE）架构，分析其在处理各种语言时的专家激活模式，探索并发现非语言特定神经元和语言特定激活神经元的存在，并展示了仅利用高频激活神经元可以在保持相当性能的同时加速推理的可能性，这些发现为LLMs的多语言处理机制提供了启示，对指导LLMs的多语言训练和模型修剪具有重要意义。

Feb, 2024

语言特定神经元: 大型语言模型多语能力的关键

通过新的检测方法 - 语言激活概率熵（LAPE），我们研究了大型语言模型中的Transformer架构，以确定语言特定的区域，并显示了激活或关闭特定语言神经元对大型语言模型输出语言的可控性。

Feb, 2024

大型语言模型如何处理多语种能力？

大型语言模型在跨多种语言表现出卓越的性能。本文探讨了大型语言模型处理多语言的方式，提出了一个处理多语言输入的框架，并利用该框架验证其有效性，并展示如何通过该框架有效提升多语言能力。

Feb, 2024

语言模型的哲学导论 - 第二部分：前进之路

通过对大型语言模型的解释性、因果干预方法的证据，以及多模态和模块化扩展，最近关于意识最低标准的争议以及在大型语言模型研究中的保密性和可重复性方面的担忧的讨论，该文讨论了大型语言模型及其对人类认知建模的相关性。

May, 2024

大型语言模型在大脑中的映射是什么？反对过度依赖脑部评分的案例

使用大型语言模型研究大脑信号，通过测量模型的预测能力和大脑的相似性，关注大脑活动对语言处理的核心元素，并发现过度依赖大脑信号评分可能导致对大型语言模型与大脑相似性的过度解读。

Jun, 2024

基于浅层未训练多头注意力网络的类脑语言处理

通过研究大型语言模型，该论文揭示了语言模型与人类大脑的相似性，重点分析了架构组件中的分词策略和多头注意力以及需求确定性的关键因素，最终提出了一种高度与人类大脑和行为对齐的模型。

Jun, 2024