解释型自然语言处理的本地解释概览

Mar, 2021

解释型自然语言处理的本地解释概览

Local Interpretations for Explainable Natural Language Processing: A Survey

Siwen Luo, Hamish Ivison, Caren Han, Josiah Poon

TL;DR研究探讨了提高深度神经网络在自然语言处理（NLP）任务中的可解释性的各种方法，包括机器翻译和情感分析，并对术语 “可解释性” 及其各个方面进行了全面讨论。这项工作列举了与局部解释相关的各种方法，并将其分为三类：1）通过相关的输入特征解释模型的预测；2）通过自然语言解释进行解释；3）探查模型和单词表示的隐藏状态。

Abstract

As the use of deep learning techniques has grown across various fields over the past decade, complaints about the opaqueness of the black-box models have increased, resulting in an increased focus on transparency in dee

deep learning interpretability neural networks natural language processing model explanation

发现论文，激发创造

文本处理与检索方法的可解释性：一项关键调查

本文全面调研了针对词嵌入、序列建模、注意力模块、Transformer、BERT 以及文档排名的机器学习和自然语言处理研究的可解释性和解释性方法，最后提出了未来的研究方向。

Dec, 2022

自然语言处理深度模型的可解释性研究

本篇综述研究了在 NLP 领域中各种 ExplainableAI 方法的模型透明度，解释能力和评估方法，并将其分为三个层面：输入层（词嵌入），处理层（模型内部运算），输出层（模型判定），并提出了未来的研究方向。

Oct, 2022

语言模型的可视化与解释

本文介绍了一些最流行的自然语言处理的深度学习可视化技术，并强调其可解释性和可解释性。

Apr, 2022

自然语言处理中可解释人工智能的现状调查

介绍当前自然语言处理中可解释 AI 的现状和对主要解释的分类，探究生成和可视化解释的各种方式和操作，详细介绍了为 NLP 模型预测生成解释的可用操作和可解释性技术，并提出当前领域研究存在的差距和未来方向。

Oct, 2020

自然语言分类器的多分辨率解释和诊断工具

通过对 NLP 模型中的观察段或语义相关的词群进行分析，将解释性摘要方法更加灵活化，并通过分析不同段落的虚假或肯定例子，引入了 NLP 模型的根本原因分析方法。最后，通过对 Yelp 评论数据集的实验证明，利用单词和 / 或信息中的组 / 集群结构可以帮助解释 NLP 模型的决策，并可用于评估模型对性别，语法和单词含义的敏感性或偏差。

Mar, 2023

可解释的人工智能：理解、可视化和解释深度学习模型

基于深度学习的解释性可视化方法在人工智能领域日益被重视，本文总结了目前解释深度学习模型的最新发展，并提出两种解释预测的方法，并将这些方法用于三个分类任务中进行评估。

Aug, 2017

神经网络可解释性调查

本文综述了神经网络的可解释性研究，详细阐述了可解释性的定义、重要性、以及基于不同维度的新颖分类方法（如主动 / 被动解释方法、从局部到全局的解释等）。最后还总结了当前可解释性评估方法，并提出了新的研究方向。

Dec, 2020

可解释的深度学习：解释、可解释性、可信度及其他

本文综述了神经网络的解释工具和算法，提出了一种新的分类方法，介绍了解释结果的评估方法和信任度算法的应用，讨论了深度模型解释与鲁棒性和借鉴解释的联系，并介绍了一些开源库。

Mar, 2021

神经网络自然语言处理的事后可解释性：一项综述

本文主要讨论了近期后续方法如何向人类传达模型解释的分类，深入讨论了每种方法及其验证过程。

Aug, 2021

从理解到应用：关于大型语言模型可解释性的调查

本文探讨大型语言模型（LLMs）的可解释性领域，强调了增强 LLMs 可解释性的必要性，重点关注预训练的基于 Transformer 的 LLMs，如 LLaMA，以及改善模型透明度和可靠性的解释性方法和评估方法的分类与讨论。

Jan, 2024