规模上的可解释性：在 Alpaca 中识别因果机制

May, 2023

规模上的可解释性：在 Alpaca 中识别因果机制

Interpretability at Scale: Identifying Causal Mechanisms in Alpaca

Zhengxuan Wu, Atticus Geiger, Christopher Potts, Noah D. Goodman

TL;DR本文介绍了基于因果抽象的分布式对齐搜索方法（Distributed Alignment Search，DAS），通过替换搜索过程并训练参数，能够高效地在大型语言模型中搜索可解释的因果结构。在应用 DAS 于 Alpaca 模型时，我们发现它通过实现一个具有两个可解释的布尔变量的因果模型来解决一个简单的数值推理问题，并且神经表示与这些变量的对齐具有鲁棒性。这些发现标志着我们深入了解最大、最广泛使用的语言模型内部运行机制的第一步。

Abstract

Obtaining human-interpretable explanations of large, general-purpose language models is an urgent goal for ai safety. However, it is just as important that our interpretability methods are faithful to the causal

interpretable explanations ai safety distributed alignment search causal abstraction alpaca model

发现论文，激发创造

在可解释因果变量和分布式神经表示之间找到对齐

本文介绍了一种名为分布式对齐搜索（DAS）的方法，它使用梯度下降来找出高层和低层模型之间的对齐，并允许单个神经元在非标准基中扮演多个不同的角色，从而发现了其他方法所错过的内在结构，为进行因果抽象分析消除了前期的限制。

Mar, 2023

抽象摘要生成的判别式对抗搜索

本研究提出了一种名为 DAS 的新型序列解码方法，使用判别器来驱动序列生成，从而减轻现象偏差的影响；应用该方法于提取式摘要任务上的实验结果表明，DAS 可以优于现有最先进的方法，同时可用于不同领域的自适应，而且不需要依赖后处理规则过滤策略。

Feb, 2020

可扩展的因果发现与分数匹配

本文介绍了如何通过观测非线性加性高斯噪声模型对数似然函数的二阶导数来发现整个因果图，利用可扩展的机器学习方法来逼近得分函数，扩展了 Rolland 等人的工作，仅从得分中恢复拓扑顺序并要求昂贵的修剪步骤，从而导致 DAS (Discovery At Scale) 算法，这是一个实用的算法，可以将修剪的复杂性降低到与图形大小成比例的因子。在实践中，DAS 算法可以实现与当前最先进的技术相当的准确性，而速度则快了一个数量级。总的来说，我们的方法实现了基于原则且可扩展的因果推断，显着降低了计算门槛。

Apr, 2023

CausalGym: 在语言任务上基准测试因果解释方法

语言模型对于心理语言学研究具有重要作用，该研究提出了 CausalGym 框架，通过评估多种解释性方法的因果有效性来研究语言模型的行为，并发现 DAS 方法在性能上优于其他方法。在此基础上，用 pythia 模型研究了负极性项许可和填充 - 间隙依赖这两个困难的语言现象，并分析表明这两个任务的实现机制是通过离散阶段学习而非逐渐学习。

Feb, 2024

DLAS：深度学习加速器方案的探索与评估

深度神经网络的加速和优化在资源有限的设备上是具有挑战性的，这篇论文结合了机器学习和系统技术，在 Deep Learning Acceleration Stack (DLAS) 中演示了如何通过整合不同层面的改进技术来提高加速效果，并强调了由于参数调整引起的 DLAS 各层之间的相互影响。研究发现，模型大小、准确性和推理时间之间并没有必然的关联，压缩技术的加速效果也受具体硬件平台的影响，而编译器自动调优可能会改变最佳算法的选择，因此需要进行协同设计来进一步优化加速深度学习的解决方案。

Nov, 2023

DASA：面向说话人验证的难度感知语义增强

通过围绕发音人嵌入空间中的语义方向对训练样本进行扰动，使用鲁棒性发音人嵌入来估计准确的协方差矩阵，并推导出了预期损失的闭式上界，该研究提出了一种新颖的难度感知的语义扩增方法，能够在几乎没有额外计算成本的情况下产生多样化的训练样本，取得了令人瞩目的性能改进。

Oct, 2023

对 Makelov 等人（2023 年）的 “可解释性幻觉” 论点的回应

论文讨论了 Makelov 等人关于子空间交换干预方法以及其可能引起的 “解释性幻觉” 的论点，并指出认为这些所谓的幻觉是由于其训练和评估模式引起的，然后强调 Makelov 等人的例子和讨论无疑推动了解释性领域的发展。

Jan, 2024

DAS：一种用于捕获 CNN 中显著信息的变形注意力方法

DAS 是一种快速且简单的全卷积方法，通过使用可变形卷积进行图片中相关区域的定位和可分离卷积实现高效，结合了现有 CNN 并通过门控机制传播相关信息，展示了在图像分类和目标检测领域，DAS 相较于其他 CNN 注意机制在减少 FLOPs 的同时取得了更好的性能提升（如在狗类数据集 Stanford Dogs 中提升了 4.47%，ImageNet 中提升了 1.91%，COCO AP 中提升了 3.3%）

Nov, 2023

基于深度强化学习的分摊主动因果归纳

Causal Amortized Active Structure Learning (CAASL) is a policy that selects adaptive interventions using a transformer-based network trained with reinforcement learning, resulting in a better estimate of the causal graph.

May, 2024

DINER：多变量因果推断在基于方面的情感分析中的去偏差

本文提出了一种基于多变量因果推断的新框架，用于消除神经网络模型在情感分析中学习不准确关联以及提高对各种输入变换的稳健性。该框架通过应用不同的因果干预方法来解决不同类型的偏见问题，并在广泛的实验中证明了其相对于其他基准方法在两个常用测试数据集上的有效性。

Mar, 2024