通过三种认知偏差(证实偏见,框架偏见和锚定偏见)的形式化,我们研究了它们对三种常见信念修订方法(条件化,词典修订和最小修订)的影响,并评估了其在随机场景中的表现和对真相跟踪的可靠性。
Jul, 2023
该研究介绍了解释性方法的评估问题,说明了评估中信仰偏见的重要性并提出了 NLP 从业者应该如何解决这一问题,同时通过基于梯度的解释性案例研究得到,在评估中考虑个体先验信仰的重要性。
Jun, 2021
本文提出了一个概率的信念模型,并探讨了它对于信念动态的影响,比 AGM 理论约弱但比 Lockean 理论强,考虑一类特定模型并提出其自然的原则,最终相较于 Leitgeb 和 Lin 以及 Kelly 的竞争性概率信念模型而言本框架比较优越。
本文通过在模拟搜救情景中测试算法,在考虑到自主系统行为的未解释性与人类理解之间的区别的情况下评估解释生成算法,研究人类与机器人间建立互信的过程以及这些算法特性被人类评价的程度。
Feb, 2018
本文提出了一种简单易学的标注模型,以帮助解释者决定哪些信息有助于实现用户与代理之间的模型对接,从而将 “解释” 作为 “模型对接” 来完成。
Mar, 2019
研究 AGM 信念修正,通过构造优先量图实现对 iterated 信念修正理论的很好的特征化,并提出在动态认识逻辑中的信念变化运算符的一种新的句法表示。
Feb, 2019
该研究通过一个众包实验,探讨解释机器学习模型的预测对人类是否具有帮助,并发现在给定特征系数的情况下,人们能够更有效地对线性词袋模型进行操纵,但解释对 BERT 型分类器并没有显著提高操纵能力,而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。
Dec, 2021
通过对 Bayesian 心智模型的建模,该论文解释了人类相信陈述的语义,解释了人类对他人目标和信念的归属,并证明了心智理论对信念语义的重要性。
Feb, 2024
本文提出一个利用知识图谱提供反事实解释的框架,并给出了一种计算该解释的算法,并 quantitatively 评估了该框架与用户研究。
May, 2023
用可理解的人类概念来解释模型的全局解释的不稳定性问题以及提出了一种基于不确定性的贝叶斯估计方法,可以提高概念解释的可靠性。
Dec, 2023