通过机制可解释性为模型性能提供可证明的保证
高维神经网络通过理解机制可解释性的视角提供对低维表示的洞察力,并从中获得人类领域知识的相关见解。通过研究训练用于重现核数据的模型,我们提取出核物理概念作为一个案例研究。
May, 2024
理解人工智能系统的内部工作对于确保价值对齐和安全至关重要。本综述通过逆向工程神经网络学习的计算机机制和表示,将其转化为人类可理解的算法和概念,从而提供一个细致的,因果性的理解。我们建立了基本概念,如神经激活中编码的知识特征以及有关其表示和计算的假设。我们调查了因果分解模型行为的方法论,并评估了机制解释对人工智能安全性的相关性。我们研究了可扩展性、自动化和全面解释方面的挑战。我们主张明确概念、确立标准,并扩展处理复杂模型和行为以及拓展到视觉和强化学习等领域的技术。机制解释有助于防止人工智能系统变得更强大和不可理解时的灾难性结果。
Apr, 2024
通过文献综述,我们对特征和行为进行了正式化,并强调了它们的重要性和评估,以及在研究表示的机制性解释性方面进行了基本的探索。通过讨论和探索性结果,我们证明了研究表示是一个重要且未被充分研究的领域,当前的机制性解释性方法不足以理解表示,因此推动研究界努力工作于新的研究框架来研究表示。
Feb, 2024
本文介绍的一种采用编程语言设计的可调试 Transformer 程序可以替代机器学习传统编写的 Transformers 来解决一系列算法问题和 NLP 任务。
Jun, 2023
本文提出了一种量化解释性方法质量的量化度量,并在众包实验中通过信息传输速率得到了实证证据,从而说明解释性方法的价值。同时,还提出了一种信任度量,以检测人类决策是否过度偏向机器学习预测。
Jan, 2019
本文提出了 “描述性解释” 和 “说服性解释” 的区别,讨论了功能解释与认知功能和用户偏好可能相关的推理,并提出了两个研究方向来消除认知功能和解释模型之间的歧义,保持准确性和可解释性之间的权衡控制。
Nov, 2017
研究关注于解释性方法,通过检查模型的不同方面(例如权重矩阵或注意力模式)来理解训练模型(例如 Transformer)实现的算法。通过理论结果和对合成数据的仔细控制实验的组合,我们对专注于模型的个别部分而不是整个网络的方法提出了批判性观点。我们使用学习(有界)Dyck 语言的简单合成设置来理论上展示了解决此任务的模型集合满足的结构特征(基于形式语言的思想,即泵引理)并证明了最佳解集合具有丰富的定性特点;特定情况下,单层的注意力模式可以 “几乎随机化”,同时保持网络的功能性。通过大量实验证明了这些结论并不仅仅是理论产物:即使在严格约束模型架构的情况下,经过标准训练也可以得到截然不同的解决方案。因此,基于检查 Transformer 中的个别头部或权重矩阵的解释性声明可能是误导性的。
Dec, 2023
通过对合成推理任务进行综合机械分析,我们鉴定了一组可解释的机制,这个模型用来解决任务,并使用相关和因果证据验证了我们的发现。我们的结果表明,它实现了一组深度有限的并行循环机制,并将中间结果存储在选择的令牌位置,我们期望我们在合成环境中鉴定的这些模式可以为理解变压器的更广泛操作原理提供有价值的见解。
Feb, 2024