interpretability research | BriefGPT

关键词interpretability research

搜索结果 - 11

ACL自我监督的口语语言模型中的声调编码
自监督语言模型在编码语音的各个层面上揭示了许多特征，本文通过分析普通话和越南语来研究语言模型对音调的编码能力，发现即使在使用非语调语言的数据进行训练时，语言模型仍然在很大程度上编码了词汇音调。同时，发现语言模型在音调和辅音感知研究中表现出与
PDF3 months ago
语言模型自我修复的探索
这篇论文研究对窄分布进行解释性研究，发现了自我修复现象，该现象表明，如果在大型语言模型中去除组件，后续的组件会改变其行为以进行补偿。我们的研究基于过去的文献，证明了当去除全训练分布上的单个注意力头时，自我修复存在于各种模型家族和规模上。我们
PDF4 months ago
机制的竞争：追踪语言模型处理事实和反事实的方式
我们提出了机制竞争的概念，通过分析大语言模型的内部运作机制的相互作用，揭示了机制之间的竞争是如何发生和影响最终预测结果的。我们使用逻辑值检查和注意力修改两种解释性方法，在模型组件中找到了机制和它们之间的竞争痕迹，并发现了可以有效控制某些机制
PDF5 months ago
概念提炼：利用人类中心解释提升模型性能
我们将 CAVs 从事后分析扩展到事前训练，通过使用额外的概念损失进行微调来减少模型偏差。我们还引入了概念蒸馏，使用预训练的知识模型作为教师来创建更丰富的概念。我们展示了概念敏感训练在去偏、分类问题和重建问题中的应用，可以提高模型的可解释性
PDF7 months ago
EMNLP探究 LLMs 对语言类别的联合编码
大型语言模型研究中发现的语言层次结构及其对语法任务的编码方式提供可解释性证据。
PDF8 months ago
语法习得中的突然降低：MLM 中的相位转变和简化偏差
通过对屏蔽语言模型（MLMs）中的句法结构的演化进行分析，研究论文发现一种自然生成的属性 —— 句法关注结构（SAS），并证明这种属性对语法能力的发展具有因果关系。另外，研究还发现，SAS 在训练过程中会与其他有益特征和能力竞争，短暂抑制
PDF10 months ago
从神经元到图形：大规模解释语言模型神经元
该论文介绍了一种自动化的方法来解释大型语言模型中的神经元行为，并将其转化为可解释的图形表示，从而提高大型语言模型的可解释性和安全性。
PDFa year ago
所有路都通罗马？探究 Transformers 表征的不变性
研究了 transformer models 中关于 representation 的可靠性问题，提出了双射假设和一种基于可逆神经网络的模型 BERT-INN，用来更有效地对齐不同模型的 representation spaces
PDFa year ago
时装百科全书 - 广告：你喜欢的广告是否透露了你的时尚品味？
本文基于 “Fashionpedia-Ads” 数据集，从广告图像的情感、视觉和文本信息多个角度，分析人们对不同领域的广告图像以及时尚产品图像的喜好，旨在研究广告与人们的时尚品味之间的相关性并促进数据可解释性研究。
PDFa year ago
分析和编辑植入后门的语言模型内部机制
本文介绍了一种新的可解释工具 PCP ablation，通过替换 MLP 和 attention 层的模块，减少模型参数和行为，剖析 transformer 语言模型的内部情感变化处理机制，为后门机制的删除、插入和修改工程化替代提供了重要的
PDFa year ago
关于可证实解释性研究的探索
本文介绍了深度神经网络的可解释性研究及其方法，指出目前的方法存在的局限和风险，并提出了以可证伪性为核心的新的研究框架，目的是为了产生更具意义和可靠的可解释性方法。
PDF4 years ago