规模本身不足以提高视觉模型的机理可解释性
高维神经网络通过理解机制可解释性的视角提供对低维表示的洞察力,并从中获得人类领域知识的相关见解。通过研究训练用于重现核数据的模型,我们提取出核物理概念作为一个案例研究。
May, 2024
如果同时扩大数据规模、模型大小和图像分辨率,通过自监督学习可以实现人类级的视觉目标识别能力,而且使用基于掩码自编码器的高效自监督学习算法,可以在低成本的学术预算下进行扩展实验。
Aug, 2023
理解人工智能系统的内部工作对于确保价值对齐和安全至关重要。本综述通过逆向工程神经网络学习的计算机机制和表示,将其转化为人类可理解的算法和概念,从而提供一个细致的,因果性的理解。我们建立了基本概念,如神经激活中编码的知识特征以及有关其表示和计算的假设。我们调查了因果分解模型行为的方法论,并评估了机制解释对人工智能安全性的相关性。我们研究了可扩展性、自动化和全面解释方面的挑战。我们主张明确概念、确立标准,并扩展处理复杂模型和行为以及拓展到视觉和强化学习等领域的技术。机制解释有助于防止人工智能系统变得更强大和不可理解时的灾难性结果。
Apr, 2024
在这项研究中,作者们使用基于众包的注释任务和心理物理学技术来评估可解释的计算机视觉算法的透明度质量,与没有人类参与的质量度量进行比较,并发现众包实验提供了一种稳健的质量评估方法。同时,文中提到在解释性方法排名、以及对人类是否有用方面,没有人类参与的质量度量与实际情况不符,为了获得对解释性的真实评估,应该在人类 - 机器学习交互的自然环境中进行评估。
Nov, 2019
本文介绍了一种名为 Agglomerator 的框架,它可以通过视觉线索提供部分 - 整体层次结构的表示,并组织与类别之间的概念语义层次结构相匹配的输入分布,从而提高神经网络的可解释性。作者在 SmallNORB、MNIST、FashionMNIST、CIFAR-10 和 CIFAR-100 等常见数据集上进行了评估,并提供了比其他最先进方法更易解释的模型。
Mar, 2022
本研究调查神经网络表示与人类认知表示之间对齐的因素,发现模型规模和架构对齐性没有实质性影响,而训练数据集和目标函数对齐性有更大的影响。研究发现,神经网络表示的线性转换有助于提高与人类相似性判断的一致性,但规模和多样性更大的数据集训练的模型也不能满足人类认知表示的需求。
Nov, 2022
本文回顾了超过 300 种内部可解释性技术,并引入了一种分类方法,介绍了它们对神经网络的什么部分(权重、神经元、子网络或潜在表示)进行解释,以及它们是在训练期间(内在)还是在训练后(事后)实现的。这篇文章强调了诊断、调试、敌对性和基准测试在未来研究中的重要性,以便使可解释性工具在实际应用中更有用。
Jul, 2022
在高风险领域中,机器学习模型已经被广泛用于辅助决策,而开发可解释的模型的兴趣逐渐增加。然而,是否这些模型能实现预期的效果,我们缺乏实验研究来证明。本研究开展了一系列预先注册的实验,展示了具有不同要素的模型,以调查它们的可解释性。结果表明,模型越透明、特征越少,参与者越能成功地模拟模型的预测,但是参与者并没有更加倾向于紧密关注其预测,而拥有透明的模型却使参与者因信息过载难以检测和修正模型的重大错误。这些结果强调了开发可解释模型时实验测试的重要性。
Feb, 2018