语言模型中上下文 N-Gram 的训练动态

Nov, 2023

语言模型中上下文 N-Gram 的训练动态

Training Dynamics of Contextual N-Grams in Language Models

Lucia Quirke, Lovis Heindrich, Wes Gurnee, Neel Nanda

TL;DR语境性神经元与 n-gram 电路构成的二阶电路在语言模型中展现渐进形成的过程，其中的德文检测电路通过对德文单一字统计建模的方式形成，而 n-grams 电路则通过推动合适的完整性来形成。

Abstract

Prior work has shown the existence of contextual neurons in language models, including a neuron that activates on german text. We show tha

contextual neurons language models german text n-grams second-order circuit

发现论文，激发创造

语言特定神经元：大型语言模型多语能力的关键

通过新的检测方法 - 语言激活概率熵（LAPE），我们研究了大型语言模型中的 Transformer 架构，以确定语言特定的区域，并显示了激活或关闭特定语言神经元对大型语言模型输出语言的可控性。

Feb, 2024

大型语言模型中的神经元：死亡，N-gram，定位

我们在单个 GPU 上以轻量级的方式分析了一族大型语言模型，重点研究了参数从 125m 到 66b 不等的 OPT 家族模型，仅仅依靠 FFN 神经元的激活与否。我们发现网络的早期部分是稀疏的，并且代表许多离散特征；很多神经元从未在大量多样的数据集上被激活，同时，许多活跃的神经元专门用于离散特征，作为标记和 n-gram 检测器；有趣的是，与预期相比，对应的 FFN 更新不仅仅促进了下一个标记的候选项，而且还明确地专注于删除触发它们标记的信息，即当前输入。据我们所知，这是首个从残差流中专门删除（而不是添加）信息的机制示例。随着规模的增长，模型变得更加稀疏，具有更多的死神经元和标记检测器。最后，一些神经元是位置性的，它们的激活与否在很大程度上（或仅仅）取决于位置，而与文本数据的关系较小（或根本没有）。我们发现较小的模型具有作为位置范围指示器的神经元集合，而较大的模型则以较不明确的方式运作。

Sep, 2023

从神经元到图形：大规模解释语言模型神经元

该论文介绍了一种自动化的方法来解释大型语言模型中的神经元行为，并将其转化为可解释的图形表示，从而提高大型语言模型的可解释性和安全性。

May, 2023

视觉语言模型中的单词识别、竞争和激活

本文研究了如何在视觉语音循环神经网络中表示和识别单词，使用门控方法分析神经网络所学单词表征的正确性和词汇竞争过程中的单词激活方式，其结果表明当网络能接触到目标单词第一个音素时才能正确识别单词表征。

Sep, 2019

像婴儿一样：视觉背景下的神经语言习得

通过实验证明了在多模态环境中进行语言学习可以提高预测准确率，该研究使用了预训练的 BERT 嵌入以及不同语言和模型进行了测试，并得出了这个认识与身处环境相应认知理论相对应的结论。

May, 2018

海马动态与深度卷积网络的上下文调制

本文探讨了生物神经回路和人工神经网络中的并行处理路径对神经计算的影响，并提出了一种机制，通过在深度学习中引入上下文感应性偏差，优化神经网络的性能，实现了对神经元形成的调节和驱动网络活动的平衡，将此方法运用于 CIFAR-100 和 Fashion-MNIST 数据集，大幅提高了网络性能，而无需增加网络大小。

Nov, 2017

多语言语言模型中的句法一致性神经元因果分析

该研究通过在不同语言的多语言语言模型和单语 BERT 模型中执行反事实扰动，并观察模型主谓一致概率的效果，发现了受语法一致性影响的神经元的分布情况，语言模型的行为分析可能低估了掩码语言模型对语法信息的敏感性。

Oct, 2022

同一神经元，不同语言：探究多语言预训练模型中的形态语法

该研究采用神经元级别探测器，在包括 43 种语言的 14 个形态句法类别上进行了大规模的实证研究，并发现了多语言预训练模型的跨语言重叠是显著的，但其范围可能因语言接近性和预培训数据的大小而异，支持其能够对语法进行语言通用的抽象。

May, 2022

N-Grammer: 使用潜在 n-gram 扩充 Transformer

本研究提出了一种新的改进 Transformer 模型的方法，使用了文本序列中的离散潜在表示构造 n-gram，并应用于语言建模和文本分类中，经实验证明性能优于传统的 Transformer 模型和 Primer，该模型已在 Jax 中开源以便复现。

Jul, 2022

递归神经网络中语言形式和功能的表示

本文基于多任务门控循环神经网络的案例，提出了一种识别对网络最终预测贡献的关键词汇并分析 RNNs 激活模式的方法。发现该网络的语言模型层对句法功能词汇更敏感，而预测图像的层对句子的信息结构和语义信息更加敏感，并学会了根据词汇的语法功能进行不同处理，而被分化的各个隐藏单元则用于在长时间步骤中传递信息以编码长期任务相关性。

Feb, 2016