Jun, 2024

两个模型的共同思考因素

TL;DR建筑差异对模型表示和处理语言的方式有显著影响。我们提出了一种基于度量学习编码模型(MLEMs)的新方法,作为回答这个问题的第一步。该方法通过特征比较来研究任意两个模型的任意两个层对语言信息的表示方式。我们将此方法应用于 BERT,GPT-2 和 Mamba,并通过识别导致相似性和差异性的具体语言特征来进行透明比较。该方法使用形式化的、符号化的领域描述进行神经表示的比较,因此可以直接扩展到其他领域(如语音和视觉)和其他神经系统,包括人脑。