透过表示相异性理解语言模型的内部工作机制

EMNLPOct, 2023

透过表示相异性理解语言模型的内部工作机制

Understanding the Inner Workings of Language Models Through Representation Dissimilarity

Davis Brown, Charles Godfrey, Nicholas Konz, Jonathan Tu, Henry Kvinge

TL;DR语言模型的内部工作机制是通过表示相异度测量所评估的，这是一组有潜力的工具，可以增加对语言模型内部工作机制的了解。

Abstract

As language models are applied to an increasing number of real-world applications, understanding their inner workings has become an important issue in model trust, →

language models representation dissimilarity measures model trust interpretability transparency

发现论文，激发创造

测量大型语言模型的表示相似性

对大型语言模型之间的相似性进行了研究，发现有些模型之间存在显著的差异。揭示了使用相似性评估得出虚假结论的挑战以及需要进行仔细研究的必要性。

Dec, 2023

探索新的方法：强调表征差异性以学习新特征并减少误差一致性

利用表征相似性领域的方法，提出了一种新颖的想法，在训练期间推动中间表示在不同架构之间的深度上不同，以学习具有不同故障模式的鲁棒集成模型。结果表明，高度不相似的中间表示导致较低的相关性输出预测及稍微降低的错误一致性，并提高了集成模型的准确性。

Jul, 2023

变形器语言模型中的流浪维度掩盖了表征质量

通过标准化技术等方法探讨相似度测量在 BERT 和 GPT-2 等上下文鉴别模型中的代表性和准确性。我们发现一些不代表整体性质的维度会干扰这些测量，并且这些测量值并不一定代表模型的真实行为。因此，我们认为分析这些模型中基于相似性的操作需要解决这些问题。

Sep, 2021

上下文词表示模型的相似度分析

本研究从相似性分析的角度调查了语境词表示模型。使用现有和新的相似性度量标准，旨在评估深度模型中信息局部化的程度，并有助于调查哪些设计因素影响模型相似性，而无需任何外部语言注释。分析发现，同一系列的模型彼此更相似，而不同的体系结构具有相似的表示，但有着不同的神经元。我们还观察到更低层和更高层的信息本地化差异，并发现更高层受下游任务的微调影响更大。

May, 2020

量化文本的差异性

本文研究各种文本相异度量方法（包括词汇表、词频分布和向量嵌入表示）在不同的任务（如按作者、主题和时间周期对文本进行聚类）中的性能表现，并分析了这些方法在不同长度文本间的偏差关系。结果表明，Jensen-Shannon Divergence 和基于嵌入的方法对 $h$ 的变化不敏感，而 Jaccard 距离则不一定可靠。

May, 2023

多语言语言模型的几何：一个平等的视角

研究了多语言语言模型不同语言的代表性，发现它们在欧几里得空间中是由独特的几何形状表示的，并且设计了跨语言相似性指数来度量语言之间的距离。结果表明，低资源语言在任何模型中都不如高资源语言表现得好。

May, 2023

语言表征实际代表着什么？

本文研究表明神经语言模型在多语言语料库上的训练可以用来学习语言的分布式表示，尤其是在语料库被翻译成英文的情况下。我们研究了语言表示与各种相似性之间的相关性和因果关系，发现结构相似是最能影响语言表示相似性的，而遗传关系则是一个混淆因素。这项研究可以促进自然语言处理和语言学的相互发展。

Jan, 2019

可解释的机器学习模型差异分析

为了解决模型比较中传统准确度无法描述模型差异的问题，提出使用联合代理树进行模型区分并在模型的决策逻辑上下文中可解释描述模型之间的差异。

Jun, 2023

表示形式作为语言：一个信息论解释的框架

通过一种新颖的可解释性方法，该论文使用信息论度量量化了神经模型对输入的表示的结构化程度，从而预测模型的泛化能力，并发现模型的代表性和噪声强度有关。此外，研究还研究了模型大小对表示空间结构的影响。

Jun, 2024

解码解码器：为无监督相似性任务找到最佳表示空间

简单模型在无监督相似性任务中优于复杂深度网络的实验证据，本文提供了一种基于最佳表示空间的简单而严格的解释，介绍了一种直接的方法，使深度复发模型（DRM）在不重新训练或结构修改的情况下，达到与浅层模型同等或更优的表现。

May, 2018