可解释人工智能方法在语音识别中的可靠性评估 —— 以音素识别为例

May, 2023

可解释人工智能方法在语音识别中的可靠性评估 —— 以音素识别为例

Can We Trust Explainable AI Methods on ASR? An Evaluation on Phoneme Recognition

Xiaoliang Wu, Peter Bell, Ajitha Rajan

TL;DR本文介绍了从图像分类领域中最新的可解释 AI 技术 “局部可解释模型 - 对抗性解释（LIME）”，应用于 TIMIT 语音数据集的语音识别任务中。将时间分割的音频片段作为解释器，本文提出的改进版本可以在其前三个音频片段中包含 96% 的真值，从而产生最可靠的解释。

Abstract

explainable ai (XAI) techniques have been widely used to help explain and understand the output of deep learning models in fields such as image classification and Natural Language Processing. Interest in using XA

explainable ai deep learning automatic speech recognition local interpretable model-agnostic explanations reliable explanations

发现论文，激发创造

自动语音识别的解释

本研究提供了一种基于解释性人工智能的方法，旨在帮助提高人们对神经网络自动语音识别系统的理解及信任度，并针对文本转录的特性提出了针对性的解释方式，通过解释性故障定位和因果关系建立，以及基于局部可解释性模型的方法进行解释结果的评估。

Feb, 2023

可解释人工智能方法评论：SHAP 和 LIME

这篇论文探讨解释的可解释人工智能（XAI）方法，特别是 SHapley 加性解释和局部可解释模型无关解释等两种使用广泛的方法，提出一个框架来解释它们的输出，强调它们的优缺点。

May, 2023

关于时间序列 XAI 方法的严格评估

本文介绍了将之前主要用于图像和文本领域的可解释人工智能（XAI）方法应用于时间序列上的新方法。作者提出了一种方法来测试和评估各种对于时间序列的 XAI 方法，并介绍了新的验证技术用以融入时间维度。作者进一步进行了初步实验来评估所选 XAI 方法的解释质量，并证明了在初步实验中，SHAP 方法的工作表现很强，但是像 DeepLIFT，LRP 和 Saliency Maps 等方法却更适用于特定的架构。

Sep, 2019

如何选择一个解释器？一个基于应用的后续解释评估

提出了一种名为 XAI Test 的应用基准评估方法，旨在评估不同水平的信息提供对最终决策的影响，针对现实世界的欺诈检测任务进行了实验，并使用多种统计方法分析了三种热门解释器的影响。

Jan, 2021

用于评估 XAI 方法的数据代表真实解释

本文介绍了使用规范方程代表解释的方法，以解决可解释的人工智能和可解释的机器学习方法面临的挑战，并提出使用合成数据来评估模型准确性的方法。

Nov, 2020

通过词级音频片段和语言学特征解释语音分类模型

对于理解语音模型，我们引入了一种新的方法，通过在两个信息层面上对输入进行扰动，生成易于理解的解释，以揭示语音分类模型中每个与单词相关的音频片段对结果的影响，并回答 “如果我们以这种方式编辑音频信号，模型的预测结果会是什么？”。我们在英语和意大利语的两个语音分类任务上验证了我们的方法，发现解释对于模型的内在工作是准确的且对人类来说是可信的，为未来关于解释语音模型的研究铺平了道路。

Sep, 2023

XAI 的普及：大型语言模型是否能简化可解释人工智能？

通过使用自定义的大型语言模型，本研究提出了一个名为 “x-[plAIn]” 的新方法，旨在将可解释人工智能（XAI）更容易地应用于更广泛的受众群体中。该模型能够根据不同受众群体的知识水平和兴趣，生成清晰、简洁的 XAI 方法概述，为商业专业人士和学术界人士提供定制化的易于理解的解释，通过提供适应性解释，促进最终用户的决策过程，从而加强了 XAI 的可访问性，弥合了复杂的 AI 技术和实际应用之间的鸿沟。本研究表明了大型语言模型在使先进的 AI 概念对各种用户更易于理解方面的前景。

Jan, 2024

解析 AI 归因方法的精确基准测试

我们提出了一种新的评估方法，用于基准测试最先进的可解释 AI 归因方法，该方法由合成的分类模型及其衍生的地面实况解释组成，该方法提供了关于 XAI 方法输出的更深入的洞察。

Aug, 2023

评估流行的可解释人工智能在临床预测模型中的应用：能否信赖？

本研究旨在评估两种流行的可解释人工智能方法在医疗保健背景下解释预测模型的精确度，重点考虑是否产生与应用任务相一致的域适当表示，如何影响临床工作流程以及是否一致性，结果表明目前的技术还有改进的空间。

Jun, 2023

可解释性方法评估的实验研究

本文比较了 14 个不同的评估指标在 9 种最先进的 XAI 方法和 3 种用作参考的虚拟方法（如随机显著性图）上的应用结果，结果表明其中一些指标会产生高度相关的结果，还展示了基准超参数变化对评估指标值的显著影响，最后使用虚拟方法评估指标的可靠性及其排名方面的限制。

May, 2023