用反事实表示解释文本分类器
在机器学习中,理解分类器推荐或预测背后的推理对用户非常重要。然而,学习的模型通常太复杂,以至于人类难以理解。本文提出了一个通用框架,用于在文本领域生成反事实解释,这个框架是不限于模型、表示和领域的,并且可以随时使用。本文将任务建模为通过替换文本的各个部分来转换初始状态为分类文本的搜索问题,包括独立于领域的运算符,但也可以通过专门的运算符利用领域特定的知识。搜寻算法试图找到距离原始分类对象具有最小的基于单词级别的 Levenshtein 距离的互补类文本。
Nov, 2022
在不需要重新训练或调整的情况下,使用预训练的生成模型,介绍了生成因果关系和可解释的反事实解释方法,以提供对黑匣子算法的透明性,并获得对面部属性分类器的对比和因果支持和必要分数,从而展示不同属性如何影响分类器输出。
Jun, 2022
本文介绍了一种使用大型语言模型生成对抗样本的方法,该方法克服了现有方法的局限性,能够产生复杂的对抗样本,并在 Civil Comments 数据集上比较了各种方法的性能和价值,并展示了其在评估毒性分类器方面的价值。
Jun, 2022
通过增加具有相反特性和标签的反事实数据来训练鲁棒的文本分类器,以强化模型可靠性和泛化性,实验证明,其在人工生成对照样本和原始测试数据上表现出较高的鲁棒性和精准度。
Dec, 2020
本文提出了一种基于决定点过程的生成和评估多样性反事实解释的框架,旨在优化反事实行为的可行性和多样性,并提供了可比较的度量标准来评估反事实方法。通过实验,验证了该框架能生成多样性的反事实,并且能有效地近似本地决策边界。
May, 2019
提供关于机器学习算法如何工作和 / 或进行特定预测的解释是改善其可靠性、公平性和鲁棒性的主要工具之一。在解释类型中,反事实是最直观的一种,它是与给定点仅在预测目标和某些特征上不同的示例,它呈现了原始示例中需要改变的特征来翻转该示例的预测。然而,这种反事实可能具有与原始示例不同的许多不同特征,使得其解释困难。在本文中,我们提出明确为反事实生成添加一个基数约束,限制与原始示例不同的特征数量,从而提供更易解释和易理解的反事实。
Apr, 2024
本文解决了生成对抗文本的问题,从而理解和调试分类器,通过优化潜在空间并利用语言模型生成候选修改来绕过离散性文本的优化难题,并使用 Shapley 值估计多个更改的组合效果来确保结果,结果显示潜在空间优化和使用 Shapley 值都显著提高了生成的反事实文本的成功率和质量。
Oct, 2021
本研究提出了反事实推理模型,在学习少量反事实样本的基础上,通过生成对于每个正面事实样本的代表性反事实样本,并使用回顾模块根据对比反事实和正事实样本来检查模型预测,从而模拟对于困难测试样本的人类反事实思维。该方法在情感分析和自然语言推理方面的广泛实验验证了其有效性。
Jun, 2021
该研究提出了一种利用结构原因模型和 ALI 生成对抗学习算法,生成能满足图像属性之间因果关系约束的反事实例,用于解释和评估神经网络模型的偏差,并使用反事实正则化方法消除分类器训练数据中对皮肤和头发颜色等多维属性的偏见。
Sep, 2020