- Poser:通过操作模型内部揭示对齐伪造的 LLMs
大型语言模型(LLM)在评估时可能假装足够对齐,但在合适的机会下会表现出问题。为了回答这个问题,我们引入了一个由 324 对 LLM 组成的基准,它们在角色扮演场景中选择行动。每对模型中的一个始终是良性的(对齐的),而另一个模型在很少被发现 - Transformer 可解释性转移到 RNN 中吗?
最近在递归神经网络(RNN)架构方面取得的进展,例如 Mamba 和 RWKV,使得 RNN 在语言建模困惑度和下游评估方面与同等规模的变压器相匹配或超过,这表明未来的系统可能会建立在全新的架构之上。本文研究了最初设计用于变压器语言模型的选 - 理解概念激活向量:解释可解释性
使用概念解释将深度学习模型的内部表示转化为人类熟悉的语言,最近的解释性方法提议采用基于概念的解释。本文研究了 Concept Activation Vectors (CAVs) 的三个性质,它们可能在不同层次之间存在不一致性,与不同概念纠缠 - 特征修剪
我们介绍了一种叫做 eigenpruning 的方法,它从 LLM 中移除特定任务中的奇异值,以提高其性能。这种方法受到解释性方法的启发,旨在自动找到解决特定任务的模型的子网络。在我们的测试中,经过修剪的模型在性能上远远优于原始模型,而仅需 - 可解释的 TabPFN 机器学习
由于先验拟合网络(PFN)在低数据环境中展示出的极具潜力的结果,我们提出了一种适用于 TabPFN 的解释性方法,通过利用该模型的独特性质,我们的适应方法能更高效地计算 Shapley 值的估计以及在处理大规模 Transformer 时使 - RAVEL:对解缠语言模型表示方法的可解释性评估
通过 RAVEL 数据集,我们引入了 Multi-task Distributed Alignment Search (MDAS) 方法,用于解决多个高级概念在单个神经元中的表示问题,并通过标识分布在激活中的特征来实现分布式表示。
- 倒推镜头:将语言模型梯度投影到词汇空间
理解 Transformer-based 语言模型是深度学习社区的一个关键目标,最近的可解释性方法在前向通道的权重和隐藏状态上帮助发现信息在模型中的流动,本研究将这种方法扩展到后向通道和梯度,证明了梯度矩阵可以被看作是前向和后向通道输入的低 - 保证解释的区域
我们提出了一种基于锚点的算法,用于确定那些可以保证局部解释正确性的区域,通过明确描述输入特征可信赖的区间来生成可解释的特征对齐框,保证局部代理模型的预测与预测模型相匹配;我们展示了相比现有基线方法,我们的算法能够找到更大的保证区域的解释,更 - CausalGym: 在语言任务上基准测试因果解释方法
语言模型对于心理语言学研究具有重要作用,该研究提出了 CausalGym 框架,通过评估多种解释性方法的因果有效性来研究语言模型的行为,并发现 DAS 方法在性能上优于其他方法。在此基础上,用 pythia 模型研究了负极性项许可和填充 - - 基于扰动的敏感性分析方法对时序深度学习模型的验证、稳健性和准确性
评估时间序列深度学习的可解释性方法,研究后处理解释方法对现代 Transformer 模型的性能进行基准测试以及不同敏感性分析方法和深度学习模型对输出的影响。
- Patchscope:语言模型隐藏表示的统一检查框架
使用 Patchscopes 框架可以解释大型语言模型的内部表示,统一之前的解释技术并扩展新的应用,如使用更强大的模型来解释较小的模型的表示和多跳推理中的自我校正。
- 面向视觉 Transformer 的类别判别注意力图
深度神经网络的解释性方法是关键组成部分,用于检查和探索神经网络,增加我们对其的理解和信任。我们介绍了一种高度敏感于目标类别的后期解释方法,即类别判别性注意力图(CDAM),它通过缩放注意力分数来确定相应的令牌对分类器预测的相关性。与像素遮蔽 - 基于有界 Dyck 文法的研究案例:变压器使用短视方法不可解释
研究关注于解释性方法,通过检查模型的不同方面(例如权重矩阵或注意力模式)来理解训练模型(例如 Transformer)实现的算法。通过理论结果和对合成数据的仔细控制实验的组合,我们对专注于模型的个别部分而不是整个网络的方法提出了批判性观点。 - 视频 Transformer 用于分割的理解:应用和可解释性的调查
视频分割是一个广泛的研究领域,重点研究基于 Transformers 的模型、解释性方法、时序动态和研究方向。
- EMNLP利用人类相似度评判修剪词向量以提高可解释性
通过一种有监督学习方法,针对特定领域(例如运动、职业),识别出一组强烈改善人类相似度判断预测的模型特征子集,并通过两种方法解释所保留特征的语义,从而揭示了人类如何根据性别包容性和国际性来区分运动类别,以及不同领域中特征对不同语义维度的预测能 - 用语义区间解释关系分类模型
近年来,大型预训练语言模型(如 BERT 和 GPT)显著改进了各种任务的信息提取系统,包括关系分类。然而,解释性的不足目前是许多实际应用中的一个复杂因素。本文提出了语义范围的概念,用于分析关系分类任务的决策模式,并通过比较人类和模型的语义 - 音视频情感机器学习的可解释性研究综述
该研究通过对 29 篇研究文章进行结构化文献综述,发现近五年来出现了在情感机器学习中采用可解释性方法的趋势,然而这些方法存在范围和评估深度的限制,并且缺乏用例的考虑,因此提出了对研究的主要空白的概述和建议。
- 神经元激活最大化的解释遭受对抗性攻击
本文提出并演示了一种优化框架,用于操纵模型以达到欺骗解释的目的,并展示了一些流行的激活最大化解释技术的若干种可以被操纵以改变解释的方式,揭示了这些方法的可靠性。
- ACL反事实编辑器的反事实分析:一种基于回译的方法
通过提出一个新的反向翻译的评估方法,我们针对自然语言处理模型和任务的解释方法的一致性问题进行了调查和分析,并提出了一种新的测量指标来评估不同特征的反事实生成方法的一致性。
- 使用生成的事实作为原子的自然语言推理的逻辑推理
本研究提出了一种模型无关的逻辑框架,以确定每个输入中负责每个模型决策的特定信息并生成可解释的自然语言推理模型,其性能优于当前最先进的神经模型,适用于高度挑战性的 ANLI 数据集。