自然语言界面的反事实解释
通过提出一个新的反向翻译的评估方法,我们针对自然语言处理模型和任务的解释方法的一致性问题进行了调查和分析,并提出了一种新的测量指标来评估不同特征的反事实生成方法的一致性。
May, 2023
本研究提出了反事实推理模型,在学习少量反事实样本的基础上,通过生成对于每个正面事实样本的代表性反事实样本,并使用回顾模块根据对比反事实和正事实样本来检查模型预测,从而模拟对于困难测试样本的人类反事实思维。该方法在情感分析和自然语言推理方面的广泛实验验证了其有效性。
Jun, 2021
在机器学习中,理解分类器推荐或预测背后的推理对用户非常重要。然而,学习的模型通常太复杂,以至于人类难以理解。本文提出了一个通用框架,用于在文本领域生成反事实解释,这个框架是不限于模型、表示和领域的,并且可以随时使用。本文将任务建模为通过替换文本的各个部分来转换初始状态为分类文本的搜索问题,包括独立于领域的运算符,但也可以通过专门的运算符利用领域特定的知识。搜寻算法试图找到距离原始分类对象具有最小的基于单词级别的 Levenshtein 距离的互补类文本。
Nov, 2022
通过调查五种预训练语言模型在特殊条件下进行的逆向推理,发现这种逆向推理主要受到基于单词关联的影响,只有 GPT-3 能够展现对语言细微差别的敏感性。
May, 2023
通过在 NLP 领域中使用具有自由文本理性化功能的对话系统,研究人员对 NLP 任务进行了改进,并通过评估模型性能和用户研究,证明了理性化和特征归因在解释模型行为方面的有效性。
Oct, 2023
本篇论文中,我们提出了一种新的自然语言解释评估方法 —— 反事实模拟性。实验结果显示,当前大型语言模型 (LLMs) 的解释精度相对较低,精度与可信度相关性也不高。因此,单纯依赖人类评判可能不足以解决问题。
Jul, 2023
本文提出 Faithfulness-through-Counterfactuals 方法并验证了其在模型验证及故障诊断中的有效性。该方法通过对逻辑谓词表达的对立假设进行模型预测一致性验证,无需额外的训练验证模型。
May, 2022