- InversionView:从神经激活中提取信息的通用方法
我们提出了 InversionView 方法,通过从经过激活条件的训练解码器模型中抽样,实际检查输入子集,以便于理解变压器模型实现的算法,并展示了该方法的特征、优势和引起验证的电路。
- 可视化和绘制 GAN 激活
我们研究了 GAN 生成的结构与它们在隐藏层中的激活之间的相关性,目的是更好地理解这些模型的内在机制,并能够使用无条件训练的 GAN 绘制结构。这使我们能够更好地控制生成的图像,可以根据语义分割图生成它们,而不需要在训练数据中包含该分割。为 - 本地交互基础:在神经网络中识别计算相关和稀疏交互特征
通过将神经网络的激活转换为新的基础 - 局部互动基础(LIB),我们提出了一种新颖的可解释性方法,旨在识别计算特征,通过消除无关的激活和相互作用,以及基于它们对下游计算的重要性对特征进行缩放,生成显示模型中所有计算相关特征和相互作用的交互图 - ICML个体神经元的线性解释
在本文中,我们展示了解释神经元模型内部工作的方法通常仅关注最高激活水平是不足够的,并且最高激活范围只负责神经元因果效应的很小百分比。我们提出神经元应该被理解为概念的线性组合,并开发了一种高效的方法来生成这些线性解释。此外,我们展示了如何使用 - 设计抖动符号激活用于二值神经网络
该研究论文提出了使用多阈值的 Dithering Sign 激活函数在二进制神经网络中代替常见的二进制激活函数,实验证明它在分类任务中既能有效地保留特征细节又能保持低计算成本。
- 量化感知训练的转换率调度
基于量化意识训练 (QAT) 的过程中,通过控制权重 / 激活的位精度来学习量化权重,通过更新潜在权重间接学习,本文提出了一种基于过渡速率 (transition rate) 的调度技术,通过调整量化权重的过渡点数目控制量化权重的变化程度, - 固定宽度树状神经网络容量分析 -- 通用激活函数
根据随机二重性理论 (RDT),本研究利用部分整体化 RDT 的框架分析了具有不同激活函数的树状委员会机器 (TCM) 神经网络的容量,特别关注于线性、二次和修正线性单元 (ReLU) 激活函数,并发现隐藏层神经元个数为两个时容量最大。
- KVQuant: 通过 KV 缓存量化实现 1000 万上下文长度的 LLM 推断
LLMs 在大文本分析和摘要等需要大上下文窗口的应用中得到越来越广泛的应用,KV 缓存激活成为推断过程中存储器占用的主要贡献者。本研究通过引入新颖的方法对缓存的 KV 激活进行量化,包括:(i)通道关键激活量化,(ii)Rotary 位置嵌 - 深度神经网络中激活空间的高效表示
提出了一个模型无关的框架来创建深度神经网络中激活的表示,使用节点特定的直方图来计算观察到的激活的 p 值,从而减少内存使用并解决隐私问题。
- 利用自组织映射在神经网络中寻找概念表示
神经网络学习过程中,通过自组织映射可以视觉和计算地检测神经网络各层激活向量与抽象概念之间的对应关系,并且相对熵可以用作一种合适的方法来识别和定位概念的神经表示,实现概念的可视化并理解其在解决预测任务中的重要性。
- 对语言模型激活的敌对攻击的尺度定律
用语言模型的激活进行对抗性攻击的研究表明,操纵模型激活的相对较小的子集可以精确控制大量(最多达到 1000 个)随后的标记预测,并发现对输入空间的控制与对输出空间的控制存在一致性,并且攻击模型的激活比攻击标记要强得多,这为对多模式和选定检索 - 大规模神经架构的反向传播压缩:结构化激活剪枝
通过在深度神经网络中采用结构化修剪和块稀疏性操作,目前的研究旨在通过减少激活值的内存消耗来减小 GPU 内存需求,从而降低大规模模型训练的要求并解决生态环境问题。
- 量化语言模型中的特征稀疏性
最近的研究工作提出了一种假设,即语言模型中的激活可以被建模为对应于输入文本特征的向量的稀疏线性组合。在这个假设下,这些工作旨在使用稀疏编码重构特征方向。我们开发了度量方法来评估这些稀疏编码技术的成功,并测试线性和稀疏假设的有效性。我们展示了 - 关于点对点非线性前后线性化循环神经网络 (RNNs) 的简要技术说明
這篇簡短且非正式的技術筆記描述了動態矩陣的兩個線性化之間的關係,以及它們的左右特徵向量,並顯示在活動動態的線性化下出現了一些依賴上下文的效應,但在激活動態的線性化下並未出現。
- 关于图神经网络的能力与激活函数的作用
活动函数不同,图神经网络在两层迭代中可以区分两个非同构树的根节点,但是若网络的大小被限制,其区分能力将受到限制。
- Rockmate:基于 PyTorch 的高效、快速、自动化和通用重现工具
Rockmate 是一个自动化工具,从模型代码开始生成一个等效的模型,使用预定义数量的内存来控制 PyTorch DNN 模型训练时的内存需求。
- 使用因果中介分析方法理解语言模型中的算术推理
本研究利用因果中介分析框架对大型语言模型在算术问题上的机制解释进行了研究,结果表明,中后期少量层次的激活对算术问题预测结果产生显著影响,模型对算术问题和事实知识的预测有不同的激活模式,并揭示了语言模型中涉及算术推理的特定组分。
- Outlier Suppression+: 大型语言模型的等效最佳移位和缩放准确量化
提出一种 Outlier Suppression + 的框架,其中采用了 channel-wise shifting 技术和 scaling 操作用于消除 transformer 语言模型中的异常值,并通过实验表明该框架在 8 比特和 6 - 张量程序 III:神经矩阵法则
该论文发现神经网络中的权重与激活函数节点随着神经网络的宽度趋近于无穷时变得独立,并且给出了这个发现的几个相关应用。
- 量化神经网络中的低位权重搜索
本文提出了通过利用微分方法来搜索离散权重的概率分布并在训练过程中进行优化,以建立所需的量化神经网络,该方法在图像分类和超分辨率任务上表现明显优于现有的最先进方法。