- LLMs 在因果推断上容易出现谬误
本研究通过合成数据对预训练语言模型进行微调,验证了模型对于从文本中推断因果关系的能力,发现模型容易根据实体在文本中的出现顺序推断因果关系,但在因果关系推断方面存在后验谬误,且对于反事实关系的推断较为困难,从而对模型对因果关系的理解提出了质疑 - 非确定性因果模型
我对无确定性的非确定性结构方程模型进行了泛化,并论证它对反事实提供了改进的语义。我通过允许多值函数在结构方程中的使用来放弃了哈尔彭(Halpern)的标准确定性语义,并调整语义以确保在任何反事实世界中都保留了实际世界中获得的方程解。最后,我 - ICML可信动态扰动
我们提出了一种名为可信行动扰动(TAP)的新框架,用于创建修改输入以有益地改变真实的概率,包括一种新颖的验证过程来确保 TAP 改变真实的类概率而不是敌对地行动,还包括更适合在现实世界中实现变化的成本、奖励和目标定义,我们对验证过程的 PA - 用于生成和评估逆事实的 LLMs:一项全面研究
NLP 模型生成反事实样本的能力及其对数据增强的影响进行了比较和评估,发现 LLMs 生成流利但改动较大的反事实样本,数据增强效果与人工生成的样本相比有明显差距。此外,LLMs 对偏标签数据的评估表现出明显的偏向性,而 GPT4 对此偏见更 - 利用基数约束生成反事实解释
提供关于机器学习算法如何工作和 / 或进行特定预测的解释是改善其可靠性、公平性和鲁棒性的主要工具之一。在解释类型中,反事实是最直观的一种,它是与给定点仅在预测目标和某些特征上不同的示例,它呈现了原始示例中需要改变的特征来翻转该示例的预测。然 - 由一组解释器产生的反事实集合中选择解释的多标准方法
基于多标准分析的多阶段集成方法能够从 Pareto 前沿中选择一个用于解释机器学习模型预测的可行对策。实验结果表明,该方法能够生成具有吸引力的多种质量度量的可操作对策。
- 使用 CounterfacTS 评估时间序列预测模型的鲁棒性
CounterfacTS 是一个用于通过反事实来探测深度学习模型在时间序列预测任务中的鲁棒性的工具,具有用户友好的界面,可视化、比较和量化时间序列数据及其预测结果,并允许用户以可解释的方式应用各种转换探索预测的变化。通过示例案例,我们说明了 - 即便是从仅有的条件中获得的:以反事实为指导的最佳半事实性解释能否找到?
通过在 7 个数据集上使用 5 个关键指标对 8 种半事实方法进行全面测试,确定是否需要使用反事实指导来找到最佳的半事实解释,结果表明不需要,而是计算决策空间的其他方面能够得到更好的半事实可解释性。
- 转变是什么?将表征介入转化为自然语言
通过操作语言模型的表示空间,我们可以将表示空间反事实转化为自然语言的反事实,从而分析与特定表示空间干预对应的语言变化,并解释用于编码特定概念的特征。此外,生成的反事实可用于减轻分类中的偏见。
- MiMiC: 在表示空间中最小修改的反事实论证
语言模型中的性别偏见和有毒语言等不良行为可以通过干预技术在表示空间中进行干预以减轻问题,本文提出了一种生成表达丰富的反事实干预方法以消除偏见和有毒语言,并在多类分类中显示了其有效性和优于强基准的性能。
- 用反事实表示解释文本分类器
通过在文本表示空间进行干预的简单方法生成对抗事实,以用于分类器解释和偏见缓解。
- 分布一致性的结构因果模型
在因果建模领域,潜在结果和结构因果模型是主要框架。然而,这些框架在实际建模反事实时面临着明显的挑战,形式化表现为潜在结果的联合分布参数。本文通过对潜在结果和结构因果模型在建模反事实中的研究,提出了 “退化反事实问题” 这一内在模型容量限制, - 公平和追索中的反事实推理的新范型
基于背推式反事实,我们探讨了一种新的范式,以固定法律保护特征的同时考虑替代初始条件,从而解释您作为现实或潜在自身的反事实结果。这种替代框架允许我们解决许多相同的社会问题,但在提出根本不依赖于人口统计学介入的不同问题。
- 图编辑用于反事实解释:一种统一的图神经网络方法
通过引入图形编辑作为反事实解释,将输入数据表示为图形,寻找一条最短的图形编辑路径,以达到黑盒分类器提供的替代分类标签。
- 线性表示假设与大语言模型的几何性质
用因果内积统一各种线性表示概念,通过使用反事实对实验表明线性表示概念的存在,与解释和控制的连接以及内积选择的基本作用。
- 优化积极结果的 “即使……” 半事实解释的效用
在自动化系统的正面结果中,我们聚焦于使用可解释的人工智能(XAI)将正面结果优化,通过引入新增概念的半事实解释方法,我们的算法在最大化收益方面表现更好,同时用户研究支持我们的主要假设。
- 深度回溯的因果一致解释
在结构因果模型中,我们引入了一种计算回溯反事实的实用方法,该方法对深度生成组件进行条件设定以解决在可控制因果模型的结构潜空间中可生成反事实的问题。相比其他方法,我们的方法具有多功能、模块化和满足因果关系的优势。通过在 MNIST 和 Cel - 局部引导的顺序算法补救的反事实解释
通过算法补偿实施的反事实推演已成为使人工智能系统具有可解释性的强大工具,本文提出了一种名为 LocalFACE 的模型不可知技术,通过局部获取的信息在每个算法补偿步骤中构建可行且可操作的反事实解释。
- 融合观察、偏差和随机数据源的近似反事实界限
通过数据集成、反事实计算和因果推断方法,我们的研究对于解决具有选择偏差的数据集以及多个数据集之间的整合问题提出了有效的解决方案。
- 基于图反事实方法的图神经网络公平性改进
本研究提出了一种基于因果理论的框架,即 CAF,用于解决图学习中的公平性问题,通过选择训练数据中的反事实因素来学习公平的节点表示,以避免非现实反事实因素,并在合成和真实数据集上进行了广泛的实验验证其有效性。