亲爱的，告诉我出了什么问题”，通过合作生成实现文本鉴别模型的全球解释

Oct, 2023

亲爱的，告诉我出了什么问题”，通过合作生成实现文本鉴别模型的全球解释

"Honey, Tell Me What's Wrong", Global Explanation of Textual Discriminative Models through Cooperative Generation

Antoine Chaffin, Julien Delaunay

TL;DRTherapy是第一个针对文本适应性的全局模型无关解释方法，通过合作生成文本来跟踪分类器所学习的分布，无需输入数据集，提供对模型行为的全局概述。

Abstract

The ubiquity of complex machine learning has raised the importance of model-agnostic explanation algorithms. These methods create artificial instances by slightly perturbing real instances, capturing shifts in mo

发现论文，激发创造

人工智能协作生成自由文本解释的重新构架

本文探讨利用人类书写的样例以几乎无监督的方式创作自由文本解释的任务，发现高质量的提示有助于提高语言模型的生成效果，同时人类研究表明GPT-3生成的解释在某些情况下能够胜过人工生成的解释；作者还结合GPT-3与学习自评价的筛选器对生成的解释进行过滤，结果表明这一方法能够实现较高水平的解释过滤。

Dec, 2021

合作文本生成的判别器选择

本文研究语言模型在生成自然文本时采用协同解码策略，使用三种基于Transformer 的分类器，并提供用于实验的基于 Monte Carlo Tree Search 的批量实现代码，比较它们在分类准确性、样本质量和计算性能等方面的优缺点。

Apr, 2022

TalkToModel：用自然语言交互对机器学习模型进行解释

TalkToModel是一个通过对话解释机器学习模型的交互对话系统，包括自然语言界面、对话引擎和执行组件，通过大量的定量和人为评估，在疾病预测任务中，73%的医护人员同意使用TalkToModel系统，85%的机器学习专业人士认为TalkToModel系统更易于使用来计算解释。这个发现表明TalkToModel比现有的系统更有效，为实践者引入了一种新的可解释性工具类别。

Jul, 2022

在文本分类中生成分层解释且不需连接规则

本文提出了一种不需要连接规则的层次化解释生成框架，可以用于生成单词的层次式聚类，以提供高质量的解释，并反映模型决策过程。

Oct, 2022

文本分类的任意生成对抗解释

在机器学习中，理解分类器推荐或预测背后的推理对用户非常重要。然而，学习的模型通常太复杂，以至于人类难以理解。本文提出了一个通用框架，用于在文本领域生成反事实解释，这个框架是不限于模型、表示和领域的，并且可以随时使用。本文将任务建模为通过替换文本的各个部分来转换初始状态为分类文本的搜索问题，包括独立于领域的运算符，但也可以通过专门的运算符利用领域特定的知识。搜寻算法试图找到距离原始分类对象具有最小的基于单词级别的Levenshtein距离的互补类文本。

Nov, 2022

借助真实样本的渐进邻域逼近解释文本分类器

针对文本分类器的局部模型无关解释，提出了一种渐进逼近方法，它通过两阶段插值使用反事实来完善待解释决策的领域，从而提高了邻域质量。通过试验，证明了该方法的有效性。

Feb, 2023

MaNtLE：无需模型的自然语言解释器

本文介绍了 MaNtLE，一个模型无关的自然语言解释器，在结构化分类任务中分析多个分类器预测，并生成忠实的自然语言解释器，模拟的用户研究表明，MaNtLE 生成的解释器平均比 LIME 和 Anchors解释器忠实度高至少11％。

May, 2023

探索使用人类理由的文本分类器的模型性能和解释可信度之间的权衡

我们提出了一种方法，将人类决策的解释性文本注释引入文本分类模型，从而提高模型解释的可信度，并通过多目标优化算法在性能和可信度之间达到平衡，从而显著提高模型解释的质量。

Apr, 2024

XPrompt：通过联合提示归因解释大型语言模型的生成

该研究引入了基于联合提示归属的反事实解释框架XPrompt，旨在解释少数提示文本是如何共同影响大型语言模型（LLM）的完整生成，并通过定义和利用多个评估指标来展示我们框架的忠实度和效率。

May, 2024

对机器生成文本黑箱检测器解释方法的评估

本研究解决了机器生成文本（MGT）检测器解释质量的评估问题，首次系统地评估了不同解释方法（SHAP、LIME和Anchor）在该领域的效果。研究发现，SHAP在可信度和稳定性方面表现最佳，能有效帮助用户预测检测器的行为，而LIME尽管被用户认为最有用，但在用户预测表现上最差。

Aug, 2024