两个模型的共同思考因素

Jun, 2024

What makes two models think alike?

Jeanne Salle, Louis Jalouzot, Nur Lan, Emmanuel Chemla, Yair Lakretz

TL;DR建筑差异对模型表示和处理语言的方式有显著影响。我们提出了一种基于度量学习编码模型（MLEMs）的新方法，作为回答这个问题的第一步。该方法通过特征比较来研究任意两个模型的任意两个层对语言信息的表示方式。我们将此方法应用于 BERT，GPT-2 和 Mamba，并通过识别导致相似性和差异性的具体语言特征来进行透明比较。该方法使用形式化的、符号化的领域描述进行神经表示的比较，因此可以直接扩展到其他领域（如语音和视觉）和其他神经系统，包括人脑。

Abstract

Do architectural differences significantly affect the way models represent and process language? We propose a new approach, based on metric-learning encoding models (MLEMs), as a first step to answer this question. The approach provides a feature-based comparison of how any two layers

architectural differences metric-learning encoding models bert gpt-2 mamba

发现论文，激发创造

度量学习编码模型识别 BERT 表示中语言特征的处理特征

通过引入度量学习编码模型（MLEMs）作为一种新方法，本研究运用 MLEMs 将从 BERT 提取的神经表示应用于跟踪各种语言特征，并发现：（1）语言特征被排序，不同层次中句子的表示有不同程度的分离；（2）神经表示按层次组织，某些层次中，表示被嵌套在更大的表示群集中，遵循连续重要的语言特征；（3）语言特征在中间层次被解耦，不同语言特征激活不同的单位。在方法上，MLEMs 优于多变量解码方法（4），更 robust 于 Ⅰ 类错误，并且优于单变量编码方法（5），能够预测局部和分布式表示。这证明了度量学习编码方法在研究语言模型中语言特征如何神经编码以及 MLEMs 相较传统方法的优势。MLEMs 可以用于其他领域（例如视觉）和其他神经系统，如人脑。

Feb, 2024

大型语言模型和大脑中的上下文特征提取层次汇聚

通过研究使用大型语言模型（LLMs）探索人工神经处理和语言理解之间相似性的因素，我们发现随着 LLMs 在基准任务上性能的提高，它们不仅在预测 LLM 嵌入的神经相应性时表现出更高的脑部相似性，而且它们的分层特征提取路径与大脑的映射更为密切，并且使用较少的层进行相同的编码。此外，我们还比较了不同 LLMs 的特征提取路径，发现高性能模型在层次化处理机制方面更多地趋同。最后，我们展示了上下文信息在提高模型性能和与大脑相似性方面的重要性，并揭示了大脑和 LLMs 语言处理的融合特点，为开发更加与人类认知处理密切相关的模型提供了新方向。

Jan, 2024

不是所有神经嵌入都是平等的

研究神经机器翻译模型和单语模型在表征词汇相似性和语法角色方面的性能，结果表明，神经翻译模型在捕捉概念的本体论状态方面比单语模型更胜一筹。

Oct, 2014

脑语言表征导航：神经语言模型与心理合理模型的比较分析

比较神经语言模型和心理可信模型，发现心理可信模型在多种多样的背景下（包括多模态数据集、不同语言等）表现更优，尤其是在融合具象信息的心理可信模型中，对单词和段落层面的大脑活动预测表现最佳。

Apr, 2024

语言模型与人脑的差异

研究发现，虽然语言模型和人类在处理语言时存在共同的计算原理，但它们在获取和使用语言方面存在明显差异，本研究通过比较语言模型的表示和人类大脑对语言的反应，发现语言模型并未很好地捕捉到情感理解、比喻语言处理和物理常识等三个现象，通过针对这些现象进行语言模型的细化调整，发现细化调整后的语言模型在这些任务中与人类大脑的反应更加一致，因此我们认为语言模型与人脑之间的差异可能源于语言模型对这些特定类型的知识的不足表示。

Nov, 2023

利用语言模型绘制大脑地图：一项调查

研究人员调查了超过 30 个研究、10 个数据集和 8 个测量方法，发现大脑和语言模型激活有一些结构相似性，但现有证据还不充分，需要更多研究。

Jun, 2023

利用神经机器翻译嵌入词汇相似度

该研究探讨神经机器翻译模型所学到的嵌入，在需要同时考虑概念相似性和词汇 - 句法角色知识的任务中，它们的性能优于单语言模型所学到的嵌入。研究结果还表明，词汇扩展算法对嵌入质量的影响很小。

Dec, 2014

语言和视觉模型几何形态的融合含义

通过对三种不同的预训练语言模型和三种计算机视觉模型进行实证研究，本文发现预训练语言模型具有与计算机视觉模型部分同构的表示收敛能力，其中分散性和多义性对语言和视觉空间的对齐性产生影响。

Feb, 2023

探讨语言模型架构的扩展与迁移在机器翻译中的应用

该研究论文探讨了语言模型和编码器 - 解码器模型在机器翻译中的性能影响，结果表明：语言模型在小规模下的表现差，但随着参数数量的增加，其性能逐渐接近于编码器 - 解码器模型，语言建模和原因屏蔽会对翻译质量产生不利影响，而当与全局可视屏蔽相配合时，语言模型在受监督的双语和多语言翻译任务中能够与编码器 - 解码器模型持平，并且在零翻译方向上表现得更好。

Feb, 2022

特征工程与特征学习方法在多语言翻译分类中的比较

本研究通过比较传统的基于特征工程的方法和基于特征学习的神经结构，分析了翻译文本的语言特征识别任务，并探讨了手工特征和神经模型预测的变量。研究表明神经结构比传统的特征工程方法优越，如 BERT 模型在单语和多语言场景下的表现最佳，而特征重要性分析也表明手工特征与神经结构的重要特征不同，多语言实验提供了翻译普遍特征的经验证据。

Sep, 2021