深度自然语言处理模型中的细粒度解释和因果分析

ACLMay, 2021

深度自然语言处理模型中的细粒度解释和因果分析

Fine-grained Interpretation and Causation Analysis in Deep NLP Models

Hassan Sajjad, Narine Kokhlikyan, Fahim Dalvi, Nadir Durrani

TL;DR本文介绍了深度 NLP 模型中的细粒度解释和因果分析，包括如何分析单个神经元和神经元组，输入特征的作用以及如何应用这种神经元分析技术，如网络操作和域适配。同时，本文介绍了两个工具包：NeuroX 和 Captum。

Abstract

This paper is a write-up for the tutorial on "fine-grained interpretation and causation analysis in deep nlp models" that we are presentin

deep nlp models fine-grained interpretation causation analysis individual neurons network manipulation

发现论文，激发创造

针对细粒度因果推理和问答的探索

本文介绍了一种新的精细化因果推理数据集，并在自然语言处理中提出了一系列新的预测任务，例如因果检测、事件因果提取和因果问答。作者通过大量实验和分析表明，数据集中的复杂关系对最先进的方法带来了独特的挑战，并强调了潜在的研究机会，特别是在发展 "因果思维" 方法方面。

Apr, 2022

神经网络稳健可解释性的因果分析

本文提出了一种基于因果分析的鲁棒性干预方法，以捕获神经网络内部的因果机制，从而审核模型行为，获得更加稳定和可信的解释，该方法适用于图像分类等任务。

May, 2023

解读神经自然语言处理的因果中介分析：性别偏见案例

通过因果中介分析理论，我们提出了一种方法来解释神经模型语言处理中行为的成因，并使用此方法研究了预先训练的 Transformer 语言模型中性别偏差的机制。通过对个体神经元和注意力节点的分析，我们发现性别偏差效应分布稀疏，集中在网络的小部分，并且能被不同的中介子部件放大或抑制，同时也可以通过中介子的直接和间接影响进行分解。

Apr, 2020

自然语言分类器的多分辨率解释和诊断工具

通过对 NLP 模型中的观察段或语义相关的词群进行分析，将解释性摘要方法更加灵活化，并通过分析不同段落的虚假或肯定例子，引入了 NLP 模型的根本原因分析方法。最后，通过对 Yelp 评论数据集的实验证明，利用单词和 / 或信息中的组 / 集群结构可以帮助解释 NLP 模型的决策，并可用于评估模型对性别，语法和单词含义的敏感性或偏差。

Mar, 2023

分析深度自然语言处理模型中的单个神经元，犹如沙漠中的一粒沙

研究者提出用于解释神经网络在自然语言处理任务中的单个特定维度及其与模型性能的相关性分析的方法，并公开了工具箱。

Dec, 2018

通过博客和电影推断细粒度事件因果关系

本文主要针对通过两种方法 —— 获取常见事件因果关系的知识库和理解特定故事或宏事件，通过知识获取方法研究以认识第一人称叙述和电影场景描述等叙事类型中的事件之间因果关系。实验结果表明我们的方法可以学习细粒度的因果关系。

Aug, 2017

关于自然语言推理的循环和注意力神经模型解释研究

本篇论文使用可视化方法解释自然语言推理任务中，使用神经网络模型的中间层的特征，为深度学习模型的解释提供了一种方法。

Aug, 2018

神经 NLI 模型中自然逻辑特征的因果效应估计

本文探讨了如何评估语义特征对语言模型预测的因果效应以及如何利用因果分析方法构建比较模型来评估 NLI 任务，强调因为可解释性和模型评估的需要，对于具有足够结构化和规律性的推理模式进行系统分析是非常有价值的

May, 2023

针对时间序列事件从文本中检测和解释原因

提出一种基于时间序列的 Granger 因果关系并结合文本数据进行因果关系的提取，建立事实间的因果联系，使用神经元的推理算法训练常识因果关系对下一个因果步骤的预测，并取得了实验证据支持该方法从时间序列文本特征中提取有意义的因果联系并生成适当解释

Jul, 2017

基于提示和微调的 LLM 与因果图验证

该研究旨在利用自然语言处理技术通过文本来源对因果图进行自动验证。与之前的研究成果相比，该研究发现经过精调的预训练语言模型在因果关系分类任务上表现远超基于提示的语言模型，F1 得分最高提高了 20.5 个百分点。

May, 2024