自然语言界面的反事实解释

Apr, 2022

Counterfactual Explanations for Natural Language Interfaces

George Tolkachev, Stephen Mell, Steve Zdancewic, Osbert Bastani

TL;DR本文提出了一种基于语义分析的新方法来生成自然语言界面的解释，重点是提供后续解释，描述如何最小修改发言以实现用户的目标。在两项用户研究中，我们证明了我们的方法可以显著提高用户的性能，并且与两种去除实验相比，可以生成更符合用户意图的解释。

Abstract

A key challenge facing natural language interfaces is enabling users to understand the capabilities of the underlying system. We propose a novel approach for generating explanations of a natural language interface based on →

natural language interfaces semantic parsing counterfactual explanations user studies user performance

发现论文，激发创造

反事实编辑器的反事实分析：一种基于回译的方法

通过提出一个新的反向翻译的评估方法，我们针对自然语言处理模型和任务的解释方法的一致性问题进行了调查和分析，并提出了一种新的测量指标来评估不同特征的反事实生成方法的一致性。

May, 2023

使用自然语言生成反事实解释

本文提出了一种基于深度神经网络的自然语言解释方法用于图像的分类，其中通过缺失证据来产生反事实解释，并提出了自动度量以分析所生成的反事实解释。

Jun, 2018

借助因果推理增强语言理解

本研究提出了反事实推理模型，在学习少量反事实样本的基础上，通过生成对于每个正面事实样本的代表性反事实样本，并使用回顾模块根据对比反事实和正事实样本来检查模型预测，从而模拟对于困难测试样本的人类反事实思维。该方法在情感分析和自然语言推理方面的广泛实验验证了其有效性。

Jun, 2021

文本分类的任意生成对抗解释

在机器学习中，理解分类器推荐或预测背后的推理对用户非常重要。然而，学习的模型通常太复杂，以至于人类难以理解。本文提出了一个通用框架，用于在文本领域生成反事实解释，这个框架是不限于模型、表示和领域的，并且可以随时使用。本文将任务建模为通过替换文本的各个部分来转换初始状态为分类文本的搜索问题，包括独立于领域的运算符，但也可以通过专门的运算符利用领域特定的知识。搜寻算法试图找到距离原始分类对象具有最小的基于单词级别的 Levenshtein 距离的互补类文本。

Nov, 2022

明智选择数据：用于语义逆因果框架的方案

本文提出一个利用知识图谱提供反事实解释的框架，并给出了一种计算该解释的算法，并 quantitatively 评估了该框架与用户研究。

May, 2023

反事实推理：测试语言模型对假设场景的理解

通过调查五种预训练语言模型在特殊条件下进行的逆向推理，发现这种逆向推理主要受到基于单词关联的影响，只有 GPT-3 能够展现对语言细微差别的敏感性。

May, 2023

通过约束松弛找到反事实解释

该研究提出了一种基于冲突检测和最大松弛的迭代方法，用于在交互式约束系统中计算对立解释，从而帮助用户理解可以应用于其现有约束的更改以使其满足约束条件。

Apr, 2022

通过对话式解释探索 NLP 模型和数据集的 InterroLang

通过在 NLP 领域中使用具有自由文本理性化功能的对话系统，研究人员对 NLP 任务进行了改进，并通过评估模型性能和用户研究，证明了理性化和特征归因在解释模型行为方面的有效性。

Oct, 2023

模型是否自我解释：自然语言解释的反事实仿真性

本篇论文中，我们提出了一种新的自然语言解释评估方法 —— 反事实模拟性。实验结果显示，当前大型语言模型 (LLMs) 的解释精度相对较低，精度与可信度相关性也不高。因此，单纯依赖人类评判可能不足以解决问题。

Jul, 2023

基于逆向推理的合理性的自然语言推理中具体例子的逻辑可满足性

本文提出 Faithfulness-through-Counterfactuals 方法并验证了其在模型验证及故障诊断中的有效性。该方法通过对逻辑谓词表达的对立假设进行模型预测一致性验证，无需额外的训练验证模型。

May, 2022