稀疏探测中的神经元查找案例研究
最近的研究工作提出了一种假设,即语言模型中的激活可以被建模为对应于输入文本特征的向量的稀疏线性组合。在这个假设下,这些工作旨在使用稀疏编码重构特征方向。我们开发了度量方法来评估这些稀疏编码技术的成功,并测试线性和稀疏假设的有效性。我们展示了我们的度量方法可以预测合成稀疏线性激活的稀疏水平,并可以区分稀疏线性数据和其他几种分布。我们使用我们的度量方法来测量几个语言模型中的稀疏水平。我们发现有证据表明语言模型的激活可以准确地被特征的稀疏线性组合所建模,这种情况比控制数据集要显著得多。我们还展示了模型的激活在第一层和最后一层似乎是最稀疏的。
Oct, 2023
我们在小型语言模型(SLMs)中实现了稀疏激活,并通过新的归因测量指标以达到精确的稀疏激活,实验证明我们的方法可以在只损失 < 5% 的模型准确性的情况下实现 80% 的稀疏化比率,可与大型语言模型(LLMs)中实现的稀疏激活相媲美。
Jun, 2024
许多成功的神经网络结构中的核心组件是一个具有非线性激活函数的两个全连接层的 MLP 块。我们在本文中对展示出激活稀疏性的 MLP 层的 PAC 可学习性进行了形式化研究,并呈现了多种实验结果,表明这类函数相对于非稀疏的对应物具有计算和统计上的优势。我们希望对 “激活稀疏” 的网络有更好的理论认识,以便能够在实践中利用激活稀疏性。
Jun, 2024
通过监测神经网络模型每个层的特征并测量其对分类的适用性,使用线性分类器(即 “探针”)完全独立于模型本身进行训练,这有助于更好地理解中间层的作用和动态,并可用于诊断潜在问题。将此技术应用于 Inception v3 和 Resnet-50 等流行模型,实验证明,特征的线性可分性沿模型深度单调增加。
Oct, 2016
使用 Learn-To-be-Efficient 算法能够实现大型语言模型的效率提升,通过激活较少神经元来获得更好的稀疏性和性能平衡,取得了较好的结果。
Feb, 2024
提出一种基于减法修剪的探测方法,相较于多层感知机探测方法,该方法在预训练模型上的准确性更高,而在随机模型上的准确性更低,且在探测复杂度上占据优势,通过对不同任务的分析,我们发现较低层次的任务被编码在较低的层数中。
Apr, 2021
使用基于 spike-and-slab sparse coding 的新特征学习和提取程序,通过适合于 GPU 的推理过程来克服大数量类的对象识别中标记样本数量的不足,并证明其在 CIFAR-10 和 CIFAR-100 数据集上能够提高监督学习性能和比以前的方法更好地扩展到大量的类别,从而成功赢得了 2011 年 NIPS 工作坊中的挑战
Jun, 2012