sparse autoencoders | BriefGPT

关键词sparse autoencoders

搜索结果 - 10

使用稀疏自编码器解释注意力层输出
稀疏自编码器被应用于解释训练好的 Transformer 模型的内部激活值，发现它们能够找到一种稀疏而可解释的分解表示，从而帮助研究人员更详细地解释模型行为，并深化对电路语义的理解。
PDF15 days ago
跨码器寻找可解释的 LLM 特征电路
通过使用转码器，我们成功地将 MLP 子层训练为具有更宽、稀疏激活的 MLP 层，并在稀疏性、忠实度和人类可解释性方面至少与稀疏自编码器 (SAEs) 持平，进而通过 MLP 子层进行基于权重的电路分析，最终成功地解析出 GPT2-smal
PDF23 days ago
InceptionV1 早期视觉中缺失的曲线检测器：应用稀疏自编码器
应用稀疏自编码器 (SAEs) 于卷积神经网络的早期视觉层，发现 SAEs 可以揭示从单个神经元中难以察觉的新的可解释特征，包括填补之前空白的额外曲线检测器，并将一些多义性神经元分解为更具单一语义的组成要素，这些发现表明 SAEs 是理解
PDFa month ago
稀疏自编码器的扩展和评估
稀疏自编码器通过重构来自稀疏瓶颈层的激活，提供了一种从语言模型中提取可解释特征的有前途的无监督方法。我们提出使用 k - 稀疏自编码器来直接控制稀疏性，简化调整并改进重构 - 稀疏性的界限，并引入一些评估特征质量的新度量标准，这些度量标准在
PDFa month ago
并非所有语言模型特征都是线性的
语言模型利用线性表示假说来执行计算，但我们研究表明某些语言模型的表示可能是固有的多维的。我们开发了一种基于不可约多维特征的严格定义，用于确定这些特征是否能够分解为独立或非共现的低维特征。通过使用稀疏自动编码器自动发现 GPT-2 和 Mis
PDF2 months ago
通过端到端稀疏字典学习识别功能重要特征
通过端到端稀疏字典学习方法，我们能够训练稀疏自编码器 (SAEs)，从而确保学习到的特征对网络功能起到重要作用，实现了更好的网络性能解释、特征数量的减少以及样本中同时活动的特征数量的减少。
PDF2 months ago
朝着基于原则的稀疏自编码器的解释性和控制性评估
我们提出了一个评估特征字典的框架来解决解释性中地实际问题缺乏基本事实的问题，并应用该框架到间接对象识别任务中使用 GPT-2 Small，发现虽然稀疏自编码器可以捕捉到可解释的特征，但是它们对于控制模型的成功程度不如受监督的特征，并观察到在
PDF2 months ago
通过门控稀疏自编码器改进字典学习
通过引入 Gated Sparse Autoencoder，文章解决了稀疏自编码器中的估计偏差问题，实现了对语言模型激活的解释性特征的无监督发现。
PDF3 months ago
使用稀疏自编码器解释 RLHF 调整的语言模型中的奖励模型
通过稀疏自编码器解释强化学习调整的大型语言模型中的学习奖励机制，进一步检查语言模型中的奖励学习，以确保目标与模型行为之间的一致性。
PDF9 months ago
稀疏自编码器发现语言模型中的高度可解释特征
使用稀疏自编码器识别语言模型内部的方向，以消除超级位置现象，并达到模型的透明度和可操控性。
PDF10 months ago