本文提出了一种名为 Automatic Circuit DisCovery (ACDC) 的算法,用于自动识别网络中的重要单元,通过在神经网络进行数据集、指标和单元的研究,可理解每个神经网络区域的功能及其组成的电路。
Apr, 2023
研究基于电路复杂度的先验模型,并使用它们来学习部分信息中的布尔函数。该模型假设,布尔函数或布尔字符串由一些电路的贝叶斯混合生成。在电路复杂度方面表现良好。
Jun, 2023
研究评估了一种称为Brain-Inspired Modular Training (BIMT)的新方法,通过改善神经网络的可解释性,显著提高了自动电路发现的效率和质量,同时超越了现有模型在电路质量、发现时间和稀疏性方面的性能。
Jan, 2024
通过使用转码器,我们成功地将 MLP 子层训练为具有更宽、稀疏激活的 MLP 层,并在稀疏性、忠实度和人类可解释性方面至少与稀疏自编码器 (SAEs) 持平,进而通过 MLP 子层进行基于权重的电路分析,最终成功地解析出 GPT2-small 中的大于电路,并发现转码器在将包含 MLP 的模型计算分解为可解释电路方面具有良好效果。
Jun, 2024
该研究论文介绍了一种全面的任务重组方法,称为电路发现,并提出了一种基于可微分遮罩的创新有效算法DiscoGP。该算法成功解决了现有电路发现研究的两个主要限制,展示了最先进的忠实度、完整性和稀疏性,为新的洞察生成型AI的内部工作方式开拓了新的途径。
Jul, 2024
本研究解决了人工神经网络与其外部行为之间的复杂关系问题,提出了多层次分析的框架。作者强调通过使用不同的分析工具在多个层次上理解生物与人工神经系统,从而提供了一种系统的方法来应对神经系统的复杂性,促进对智能系统的统一理解。
Aug, 2024
本研究针对深度学习系统内部结构与外部行为之间的关系,提出了一种多层次分析的方法,借鉴了神经科学的丰富经验。通过Marr的三层分析框架,研究阐明了人工和生物神经系统如何通过不同的分析工具理解其复杂性,提供了一种系统化的方法来促进对智能系统的统一理解。该工作对深度学习的解释性具有重要的潜在影响。
本研究解决了神经网络,特别是语言模型在复用功能上的能力不足的问题。通过分析变压器模型中高度组合的子任务电路,研究发现功能相似的电路具有显著的节点重叠和跨任务的信实性,这表明这些电路可以通过子网络集合运算进行重用和组合,从而表现出更复杂的功能能力。
Oct, 2024
本文研究了电路发现在内部可解释性方面的重要性,探讨了现有算法在规模和可信度上的不足。作者通过经典和参数化的计算复杂性理论,建立了一个框架来分析多层感知器的查询复杂性,发现了许多查询是不可解的,同时提出了一些针对这些困难问题的转化方法。本研究为理解可解释性查询的范围和限制提供了新的视角,有助于探索和比较现有及未来架构的资源需求。
本研究解决了现代人工智能系统在符号处理和抽象能力测试中的不足,提出了一个基于代数电路复杂性的框架来量化符号泛化能力。研究表明,代数电路复杂性不仅能为符号计算的复杂性提供理论支持,还能为当前数据需求巨大的机器学习算法提供优化的测试平台,具有重要的应用潜力。
Nov, 2024