评估机器生成事实核查解释的透明度
本文探讨利用人类书写的样例以几乎无监督的方式创作自由文本解释的任务,发现高质量的提示有助于提高语言模型的生成效果,同时人类研究表明 GPT-3 生成的解释在某些情况下能够胜过人工生成的解释;作者还结合 GPT-3 与学习自评价的筛选器对生成的解释进行过滤,结果表明这一方法能够实现较高水平的解释过滤。
Dec, 2021
通过与搜索引擎进行对比实验证明,大型语言模型虽然能提高事实核查的效率,但在解释错误的情况下容易让用户过分依赖,因此在高风险环境中不宜将其作为阅读检索内容的可靠替代品。
Oct, 2023
通过一系列实验,本文对可解释的事实核查进行了全面分析,重点研究了大型语言模型验证公共健康主张的能力,并提供解释或证明其真实性评估的能力。我们通过零 / 少提示和参数高效微调的形式,在各种开放和封闭源模型中,检验了它们在真实性预测和解释生成的孤立和联合任务中的效果。重要的是,我们采用了前期确认的自动度量标准和一套新标准的人工评估方式来进行双重评估。自动评估结果显示,在零提示场景下,GPT-4 是出类拔萃的表现者,但在少提示和参数高效微调的情况下,开放源模型不仅能够填补性能差距,而且在某些情况下超过了 GPT-4。人工评估显示出更多细微差异,并且指出了黄金解释可能存在的问题。
May, 2024
该研究通过一个众包实验,探讨解释机器学习模型的预测对人类是否具有帮助,并发现在给定特征系数的情况下,人们能够更有效地对线性词袋模型进行操纵,但解释对 BERT 型分类器并没有显著提高操纵能力,而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。
Dec, 2021
自动化生成证明(说明为何某主张被分类为真或假)的过程在抵制虚假信息方面起到重要作用,这篇论文针对无结构知识(如新闻文章)的摘要方法进行了实验证明,结果显示,通过基于主张信息的抽取步骤改善摘要性能可以从证明生成摘要中获益。
Aug, 2023
本研究通过与最新方法(集成渐变、保守 LRP 和 ChatGPT)进行对比实证调查,收集和分析了 156 个人生成的文本和基于显著性的解释,并发现与机器显著性图相比,人工显著性图尤其在解释人工智能结果时更具说明性,但其性能与对人工智能模型和解释的信任负相关,揭示了人工智能解释中的困境:当有助于理解错误的人工智能预测时,会降低任务表现。
Apr, 2024
通过对开放式新闻标题生成任务中的人类研究和模型评估,我们分析了解释的表达方式和存在对用户信任和模型性能的影响。整体而言,我们提供了证据表明,在用户有机会比较不同的回答时,模型回答中添加解释以证明其推理能显著增加用户对模型的自我报告信任。对这些解释的位置和忠实度也是重要因素。然而,当用户独立地看到回答时,这些增益消失,这表明人类在独立显示时平等地信任所有模型回答,包括欺骗性的回答。我们的发现督促未来的研究更深入地探讨人机合作系统中信任的微妙评估。
Jun, 2024
通过用户研究,本研究评估了可解释人工智能在实际场景中对人类决策的改进效果,结果发现虽然解释有助于用户更准确地描述模型,但对于模型选择和反事实模拟这两个任务,并没有找到使用任何显著改进的证据,这表明对基于显著性的解释的实用性和可能的误解需要谨慎对待。
Dec, 2023