activation space | BriefGPT

关键词activation space

搜索结果 - 5

ACLBadActs: 激活空间中的通用后门防御
通过在激活空间中绘制异常激活值以使其朝向最小优化干净激活分布区间，我们引入了一种通用的后门防御机制，旨在净化激活空间中的后门样本，从而消除后门触发器并保持样本中干净内容的完整性。此方法的优势体现在两方面：(1) 通过在激活空间中操作，我们的
PDF2 months ago
大语言模型中情感的线性表征
在这项研究中，我们发现情感在大型语言模型中以线性方式表示，通过因果干预，我们证明情感表示在特定方向是有因果关系的。此外，我们揭示了情感表示涉及的注意力和神经元的机制，并发现了一种名为 “summarization motif” 的现象，其中
PDF8 months ago
通过多面体透镜解释神经网络
本研究通过研究分段线性激活函数将激活空间分为许多离散的多面体的方式，提出了新的解释神经网络的方法，并在卷积图像分类器和语言模型上进行了实验，揭示了有关神经网络行为的具体预测
PDF2 years ago
KDD深度强化学习智能体行为的实证研究
通过对深度强化学习的智能体的策略网络进行局部网络消融，我们发现健康智能体的行为是通过网络层激活与执行行为之间具有特定的相关模式所表征，并且健康智能体的学习表征在其激活空间中具有反映其不同行为阶段的特定模式，在网络消融时，这些模式被扭曲，导致
PDF4 years ago
通过异常模式检测识别音频对抗样本
本文研究基于深度神经网络的音频处理模型容易受到对抗攻击的问题，提出了在激活空间中应用异常模式检测技术来检测对抗性样本，并可以在不降低对良性样本性能的情况下检测出两种最新的对抗攻击，AUC 最高可达 0.98。
PDF4 years ago