本文提出了一种简单易学的标注模型,以帮助解释者决定哪些信息有助于实现用户与代理之间的模型对接,从而将 “解释” 作为 “模型对接” 来完成。
Mar, 2019
本文通过在模拟搜救情景中测试算法,在考虑到自主系统行为的未解释性与人类理解之间的区别的情况下评估解释生成算法,研究人类与机器人间建立互信的过程以及这些算法特性被人类评价的程度。
Feb, 2018
基于可解释的概率逻辑编程和查询驱动的推理机制,本研究提出一种解释解释的方法,以使黑盒人工智能系统的解释更易理解。
Jan, 2024
本文提出了一种可解释自然语言理解的框架,使用一小部分人类注释的解释进行训练,并采用变分 EM 方法进行优化,同时提出了基于解释的自训练方法,在两个自然语言理解任务上进行实验,证明了该框架不仅可以在监督和半监督设置下进行有效的预测,还可以生成良好的自然语言解释。
Oct, 2020
本文提出了一个新的生成式解释框架,学习同时进行分类决策和生成细粒度解释,实验证明该方法可以生成简明的解释,超过所有基线系统。
Nov, 2018
评估可解释性模型的统一框架是该论文的重点,它介绍了各个研究群体对解释性评估的重叠和语义错位,并提出了解释的可行性和可理解性的评估标准,以及基于可解释神经网络的学习行为预测的案例。
May, 2024
深度神经模型在自然语言处理中变得越来越复杂且难以解释,因此解释它们的必要性也越来越大。本文提出了一个正式框架来支持对解释的系统评估,并提供了适用于不同结构的解释的示例,重点是自动事实验证任务。
Mar, 2024
通过敌对训练的方法,我们提出了一个生成稳健且高保真黑盒模型解释的新框架,尝试解决现有算法在受到分布偏移时缺乏稳定性和鲁棒性的问题,本文是首次尝试生成对一类有实际意义的敌对扰动具有鲁棒性的后续解释,实验发现我们的方法显著提高了解释的鲁棒性,而不会在原始数据分布上牺牲解释的保真度。
Nov, 2020
INTERACTION 是一个生成性 XAI 框架,提供两个步骤的术语解释生成方法,具有 better performance 和多样性。
Sep, 2022
通过生成对称近似的对抗性样本,我们开发了一种方法来评估 GNNExplainer 生成的解释中的不确定性,通过学习一个因子图模型来量化解释的不确定性,我们的结果表明我们的方法可以可靠地估计解释中指定关系的不确定性。