通过新的检测方法 - 语言激活概率熵(LAPE),我们研究了大型语言模型中的 Transformer 架构,以确定语言特定的区域,并显示了激活或关闭特定语言神经元对大型语言模型输出语言的可控性。
Feb, 2024
我们在单个 GPU 上以轻量级的方式分析了一族大型语言模型,重点研究了参数从 125m 到 66b 不等的 OPT 家族模型,仅仅依靠 FFN 神经元的激活与否。我们发现网络的早期部分是稀疏的,并且代表许多离散特征;很多神经元从未在大量多样的数据集上被激活,同时,许多活跃的神经元专门用于离散特征,作为标记和 n-gram 检测器;有趣的是,与预期相比,对应的 FFN 更新不仅仅促进了下一个标记的候选项,而且还明确地专注于删除触发它们标记的信息,即当前输入。据我们所知,这是首个从残差流中专门删除(而不是添加)信息的机制示例。随着规模的增长,模型变得更加稀疏,具有更多的死神经元和标记检测器。最后,一些神经元是位置性的,它们的激活与否在很大程度上(或仅仅)取决于位置,而与文本数据的关系较小(或根本没有)。我们发现较小的模型具有作为位置范围指示器的神经元集合,而较大的模型则以较不明确的方式运作。
Sep, 2023
该论文介绍了一种自动化的方法来解释大型语言模型中的神经元行为,并将其转化为可解释的图形表示,从而提高大型语言模型的可解释性和安全性。
May, 2023
本文研究了如何在视觉语音循环神经网络中表示和识别单词,使用门控方法分析神经网络所学单词表征的正确性和词汇竞争过程中的单词激活方式,其结果表明当网络能接触到目标单词第一个音素时才能正确识别单词表征。
Sep, 2019
通过实验证明了在多模态环境中进行语言学习可以提高预测准确率,该研究使用了预训练的 BERT 嵌入以及不同语言和模型进行了测试,并得出了这个认识与身处环境相应认知理论相对应的结论。
May, 2018
本文探讨了生物神经回路和人工神经网络中的并行处理路径对神经计算的影响,并提出了一种机制,通过在深度学习中引入上下文感应性偏差,优化神经网络的性能,实现了对神经元形成的调节和驱动网络活动的平衡,将此方法运用于 CIFAR-100 和 Fashion-MNIST 数据集,大幅提高了网络性能,而无需增加网络大小。
Nov, 2017
该研究通过在不同语言的多语言语言模型和单语 BERT 模型中执行反事实扰动,并观察模型主谓一致概率的效果,发现了受语法一致性影响的神经元的分布情况,语言模型的行为分析可能低估了掩码语言模型对语法信息的敏感性。
Oct, 2022
该研究采用神经元级别探测器,在包括 43 种语言的 14 个形态句法类别上进行了大规模的实证研究,并发现了多语言预训练模型的跨语言重叠是显著的,但其范围可能因语言接近性和预培训数据的大小而异,支持其能够对语法进行语言通用的抽象。
May, 2022
本研究提出了一种新的改进 Transformer 模型的方法,使用了文本序列中的离散潜在表示构造 n-gram,并应用于语言建模和文本分类中,经实验证明性能优于传统的 Transformer 模型和 Primer,该模型已在 Jax 中开源以便复现。
Jul, 2022
本文基于多任务门控循环神经网络的案例,提出了一种识别对网络最终预测贡献的关键词汇并分析 RNNs 激活模式的方法。发现该网络的语言模型层对句法功能词汇更敏感,而预测图像的层对句子的信息结构和语义信息更加敏感,并学会了根据词汇的语法功能进行不同处理,而被分化的各个隐藏单元则用于在长时间步骤中传递信息以编码长期任务相关性。
Feb, 2016