- 大型语言模型中混合专家的更深入研究
Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家,在参数和行为特征方面带来了一些有趣的观察,为 MoE 框架和其他模块化架构的未来研究提供了启示。
- 激发还是抑制单一语义性?从特征去相关角度重新思考单一语义性
大语言模型中的单语义性神经元对模型容量有积极影响,鼓励特征去相关化可以增强表示多样性和激活稀疏性,并提高偏好对齐性能。
- 基于 LLM 的概念发现:自动识别和解释神经元功能
利用多模态大型语言模型进行自动和无限的概念发现,既可以发现概念,又可以验证它们,为解释深度神经网络提供可信的自动化工具。
- 解读 CLIP 神经元的二阶影响
我们通过使用文本自动描述单个神经元在 CLIP 中的功能,通过对神经元直接效应(即从神经元通过剩余流到输出的流动)或间接效应(总体贡献)的分析无法捕捉到神经元在 CLIP 中的功能。因此,我们提出了 “二阶镜头”,通过分析从神经元通过后续注 - 小型语言模型中实现稀疏激活
我们在小型语言模型(SLMs)中实现了稀疏激活,并通过新的归因测量指标以达到精确的稀疏激活,实验证明我们的方法可以在只损失 < 5% 的模型准确性的情况下实现 80% 的稀疏化比率,可与大型语言模型(LLMs)中实现的稀疏激活相媲美。
- 给定神经网络中全连接层的最小神经元数量(第一近似)
该论文提出了一种算法,用于搜索解决给定问题的任意网络中完全连接层中的最少神经元数量,该算法不需要使用不同数量神经元的网络进行多次训练。该算法基于交叉验证方法在至少两个折叠上对初始宽网络进行训练。然后通过使用截断奇异值分解自动编码器插入在训练 - 三层神经网络非多项式激活函数的记忆容量
神经元、前馈神经网络、激活函数、插值、插值能力
- 适应时间:自然为何演化出多样的神经元
通过改变丰富的时间参数,如时间常数和延迟,我们展示了网络在处理具有时间结构的任务时更加轻松和稳健的能力,并且在处理输入和权重中的噪声时,调整时间参数的优势将在神经形态学硬件设计中发挥作用。
- PURE: 通过识别相关电路将多义性神经元转化为纯特征
我们提出了一种方法,通过将多义性神经元分解为多个单义性的 “虚拟” 神经元,从而解开深度神经网络中的多义性,实现了深度神经网络的解释性。
- CVPRFISBe: 用于实例分割长距离细纤维结构的真实世界基准数据集
该研究通过实例分割神经系统的体积光学显微图像,为神经科学的突破性研究提供便利,能够在细胞分辨率上促进神经回路的功能和形态分析。为了解决多神经元光学显微数据的现有挑战,研究团队发布了第一个公开可用的具有像素级注释的多神经元光学显微数据集,并定 - 深度图像理解的拓扑表示学习
通过拓扑数据分析法,我们提出了一种新颖的深度学习框架,以更好地分割和不确定性评估复杂的细微结构,如生物医学应用中的神经元、组织和血管,为可扩展的标注提供了有力工具。
- 专注于神经元:神经元级别的大语言模型有监督微调
大型语言模型 (LLMs) 由表现出各种行为和角色的神经元构成,随着模型规模的扩大,它们变得越来越多样化。研究发现,并非所有神经元在不同的数据集上都活跃,这种稀疏性与任务特定能力呈正相关,为模型剪枝和训练效率的进展提供了基础。传统的微调方法 - 利用神经激活先验的异常检测
基于神经激活先验的针对超出分布检测的方法,利用神经网络的前全局池化层之前的通道的激活概率差异来提取与 ID 样本和 OOD 样本的相关特征,并提出了一种新的评分函数用于强调这些强激活的神经元在超出分布检测中的作用,该方法能够与现有方法有效地 - RAVEL:对解缠语言模型表示方法的可解释性评估
通过 RAVEL 数据集,我们引入了 Multi-task Distributed Alignment Search (MDAS) 方法,用于解决多个高级概念在单个神经元中的表示问题,并通过标识分布在激活中的特征来实现分布式表示。
- 基于事件的自编码器的音频压缩技术
神经元通过称为脉冲的时机事件传递信息,在数字系统中如何利用这一信息仍不清楚。在本研究中,我们展示了事件编码在音频压缩中的有效性。我们使用深度二进制自编码器构建了这种基于事件的表示,在高稀疏度压力下,模型进入了二进制事件矩阵通过稀疏矩阵存储算 - MMTransformer 中的传递算法
加法算法是一种简单的算术任务,并且通常使用进位算法执行。我们研究了 Transformer 模型如何实现这个算法,并将两个任务分配给网络的不同部分。我们首先关注两层编码器模型,并表明进位算法以模块化方式实现。第一层主要负责加法操作,第二层首 - 使用置换不变编码器进行神经元分类的神经骨架和脑回路拓扑的联合学习
本研究提出了一个名为 NeuNet 的框架,该框架整合了神经元的形态和连接信息,并成功应用于神经元分类任务,通过电子显微镜成像技术和分析方法在两个数据集上获得了高分类精度。
- 寻找女士:深度神经网络的排列和重新同步
我们提出了一种方法来重新同步深度神经网络中排列的神经元的顺序,并在参数修剪、量化和微调等操作中展现了对数据完整性攻击的抵抗能力。
- 指数级加速的语言建模
FastBERT 是一种 BERT 变种,使用仅占其神经元的指数部分进行推断,同时表现出与类似 BERT 模型相当的性能。它通过将前馈网络替换为快速前馈网络来实现,每层推断只有 12 个神经元参与。我们提供了高效的 CPU 代码和 PyTo - LLM 中的本地化方法是否真正本地化记忆数据?
本研究主要研究在大型语言模型中是否可以确定负责记忆给定序列的少量神经元,并通过两种基准方法进行了评估。评估结果显示,尽管所识别的神经元不一定与单个记忆序列相关,但所有方法都展现出令人满意的定位能力,特别是基于修剪的方法。