评估机器生成事实核查解释的透明度

Jun, 2024

评估机器生成事实核查解释的透明度

Evaluating Transparency of Machine Generated Fact Checking Explanations

Rui Xing, Timothy Baldwin, Jey Han Lau

TL;DR通过使用大型语言模型，我们研究了人工筛选与机器选择证据对解释生成的影响，发现大型语言模型使用机器选择的证据生成的解释质量相似或更高，表明精心策划（通过人工）的证据可能不是必需的。但即使使用最佳模型，生成的解释有时也不忠实于来源，因此在事实核查的解释生成方面仍有改进的空间。

Abstract

An important factor when it comes to generating fact-checking explanations is the selection of evidence: intuitively, high-quality explanations can only be generated given the right evidence. In this work, we investigate the impact of human-curated vs. machine-selected evidence for

fact-checking explanation generation evidence selection transparency utility

发现论文，激发创造

生成事实检查解释

本文针对自动事实检测的不足之处，提供了首个研究可利用可用的声明上下文生成自动化证明，并且演示了一项同时优化判断准确性预测和证明生成的多任务模型平均性能更好。

Apr, 2020

人工智能协作生成自由文本解释的重新构架

本文探讨利用人类书写的样例以几乎无监督的方式创作自由文本解释的任务，发现高质量的提示有助于提高语言模型的生成效果，同时人类研究表明 GPT-3 生成的解释在某些情况下能够胜过人工生成的解释；作者还结合 GPT-3 与学习自评价的筛选器对生成的解释进行过滤，结果表明这一方法能够实现较高水平的解释过滤。

Dec, 2021

可解释的自动事实核查：一项调查

本文综述了自动事实检查中解释功能的现有方法，分析了好的解释特性，并描述了相关的进一步研究方向。

Nov, 2020

大型语言模型协助人类验证真实性 -- 除非其错得令人信服

通过与搜索引擎进行对比实验证明，大型语言模型虽然能提高事实核查的效率，但在解释错误的情况下容易让用户过分依赖，因此在高风险环境中不宜将其作为阅读检索内容的可靠替代品。

Oct, 2023

解释性大语言模型的公共卫生事实核查

通过一系列实验，本文对可解释的事实核查进行了全面分析，重点研究了大型语言模型验证公共健康主张的能力，并提供解释或证明其真实性评估的能力。我们通过零 / 少提示和参数高效微调的形式，在各种开放和封闭源模型中，检验了它们在真实性预测和解释生成的孤立和联合任务中的效果。重要的是，我们采用了前期确认的自动度量标准和一套新标准的人工评估方式来进行双重评估。自动评估结果显示，在零提示场景下，GPT-4 是出类拔萃的表现者，但在少提示和参数高效微调的情况下，开放源模型不仅能够填补性能差距，而且在某些情况下超过了 GPT-4。人工评估显示出更多细微差异，并且指出了黄金解释可能存在的问题。

May, 2024

重新思考用户研究设计以评估模型解释

该研究通过一个众包实验，探讨解释机器学习模型的预测对人类是否具有帮助，并发现在给定特征系数的情况下，人们能够更有效地对线性词袋模型进行操纵，但解释对 BERT 型分类器并没有显著提高操纵能力，而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。

Dec, 2021

事实核查解释生成的基准测试

自动化生成证明（说明为何某主张被分类为真或假）的过程在抵制虚假信息方面起到重要作用，这篇论文针对无结构知识（如新闻文章）的摘要方法进行了实验证明，结果显示，通过基于主张信息的抽取步骤改善摘要性能可以从证明生成摘要中获益。

Aug, 2023

解开人工智能错误之谜：探索大型语言模型的人工和机器解释的有效性

本研究通过与最新方法（集成渐变、保守 LRP 和 ChatGPT）进行对比实证调查，收集和分析了 156 个人生成的文本和基于显著性的解释，并发现与机器显著性图相比，人工显著性图尤其在解释人工智能结果时更具说明性，但其性能与对人工智能模型和解释的信任负相关，揭示了人工智能解释中的困境：当有助于理解错误的人工智能预测时，会降低任务表现。

Apr, 2024

为什么您会提出这样的建议？人类对语言模型回答的信任

通过对开放式新闻标题生成任务中的人类研究和模型评估，我们分析了解释的表达方式和存在对用户信任和模型性能的影响。整体而言，我们提供了证据表明，在用户有机会比较不同的回答时，模型回答中添加解释以证明其推理能显著增加用户对模型的自我报告信任。对这些解释的位置和忠实度也是重要因素。然而，当用户独立地看到回答时，这些增益消失，这表明人类在独立显示时平等地信任所有模型回答，包括欺骗性的回答。我们的发现督促未来的研究更深入地探讨人机合作系统中信任的微妙评估。

Jun, 2024

评估模型解释在模型开发中的效用

通过用户研究，本研究评估了可解释人工智能在实际场景中对人类决策的改进效果，结果发现虽然解释有助于用户更准确地描述模型，但对于模型选择和反事实模拟这两个任务，并没有找到使用任何显著改进的证据，这表明对基于显著性的解释的实用性和可能的误解需要谨慎对待。

Dec, 2023