ReproHum #0087-01: 生成事实检查解释的人工评估复现报告

COLINGApr, 2024

ReproHum #0087-01: 生成事实检查解释的人工评估复现报告

ReproHum #0087-01: Human Evaluation Reproduction Report for Generating Fact Checking Explanations

Tyler Loakman, Chenghua Lin

TL;DR这篇论文通过 ReproHum 元素，部分复现了 Anatanasova 等人（2020）的《生成事实检查解释》。在 ReproNLP 共同任务中，本共享任务旨在研究 NLP 作为一个领域在时间上变得更加可复现的程度。通过根据任务组织者和原始作者提供的指南，我们对 40 个输入的 3 个事实检查解释（包括一个黄金标准和两个模型的输出）进行了相对排名，评估了其覆盖范围。我们的复现和对原始结果的再分析结果支持原论文的发现，原始论文与我们的复现结果之间存在类似的模式。尽管我们观察到与原始结果略有不同的变化，但我们的发现支持原始作者关于其提出的模型的有效性的主要结论。

Abstract

This paper presents a partial reproduction of Generating Fact Checking Explanations by Anatanasova et al (2020) as part of the reprohum element of the repronlp shared task to reproduce the findings of NLP researc

generating fact checking explanations reprohum repronlp reproducibility fact-checking models

发现论文，激发创造

NLP 中无法评估先前人类评估的再现性：信息缺失，作者不响应，实验缺陷

该研究为了检查人类对 NLP 的评估是否可重复进行了集体研究，结果发现大多数近期的研究不可重复、不可复制，需要重新设计并报告人类对 NLP 的评估方式。

May, 2023

生成事实检查解释

本文针对自动事实检测的不足之处，提供了首个研究可利用可用的声明上下文生成自动化证明，并且演示了一项同时优化判断准确性预测和证明生成的多任务模型平均性能更好。

Apr, 2020

事实核查解释生成的基准测试

自动化生成证明（说明为何某主张被分类为真或假）的过程在抵制虚假信息方面起到重要作用，这篇论文针对无结构知识（如新闻文章）的摘要方法进行了实验证明，结果显示，通过基于主张信息的抽取步骤改善摘要性能可以从证明生成摘要中获益。

Aug, 2023

公共卫生宣称的可解释自动事实检查

该研究是针对需要特定专业知识的领域的事实核查的第一项探索性研究，提出了可解释的事实核查模型，并针对公共卫生领域构建了一个新的数据集进行案例研究，结果表明，通过对特定领域的数据进行训练，可以提高自动化事实核查的可解释性。

Oct, 2020

借助作者的一点帮助：重复人工评估机器翻译错误检测器

我们努力复现了 Vamvas 和 Sennrich（2022 年）的研究中提到的人类评价实验的结果，该实验评估了机器翻译（MT）输出中检测到的过度和不足翻译（比原文包含更多或更少信息的翻译）的自动系统。尽管作者提供了优质的文档和代码，但我们发现了一些在重现实验设置方面的问题，并提出了提高可重复性的建议。我们复制的结果基本上证实了原研究的结论，但在一些情况下观察到了统计显著差异，表明人类标注存在很高的可变性。

Aug, 2023

将复制和复现与 NLP 中的泛化能力联系起来：针对目标依赖性情感分析的三个复现研究

本研究旨在解决自然语言处理中重复性和普适性问题，并以目标相关情感分析为例，证明最近该领域的工作缺乏足够的代码共享和方法描述，缺乏对数据的可比性和泛化性。研究人员运用三种互补方法进行了第一次再现研究，并在六个不同的英文数据集上进行了第一次大规模评估，推荐未来考虑多种数据集、发布代码，以便最大程度上减少使可重复性和普遍性困难的障碍。

Jun, 2018

解释性大语言模型的公共卫生事实核查

通过一系列实验，本文对可解释的事实核查进行了全面分析，重点研究了大型语言模型验证公共健康主张的能力，并提供解释或证明其真实性评估的能力。我们通过零 / 少提示和参数高效微调的形式，在各种开放和封闭源模型中，检验了它们在真实性预测和解释生成的孤立和联合任务中的效果。重要的是，我们采用了前期确认的自动度量标准和一套新标准的人工评估方式来进行双重评估。自动评估结果显示，在零提示场景下，GPT-4 是出类拔萃的表现者，但在少提示和参数高效微调的情况下，开放源模型不仅能够填补性能差距，而且在某些情况下超过了 GPT-4。人工评估显示出更多细微差异，并且指出了黄金解释可能存在的问题。

May, 2024

评估机器生成事实核查解释的透明度

通过使用大型语言模型，我们研究了人工筛选与机器选择证据对解释生成的影响，发现大型语言模型使用机器选择的证据生成的解释质量相似或更高，表明精心策划（通过人工）的证据可能不是必需的。但即使使用最佳模型，生成的解释有时也不忠实于来源，因此在事实核查的解释生成方面仍有改进的空间。

Jun, 2024

句法基础的观点挖掘中的复制问题

本文介绍了一项对于基于句法的方面级情感挖掘的三种著名算法的经验可重复性研究，表明由于预处理和参数设置缺少细节以及缺乏可用的代码实现以阐明细节，再现结果仍然是一项困难的任务，这是该领域的重要研究威胁。因此，鼓励代码驱动的研究在帮助研究人员更好地理解最新技术意义和生成持续进展方面具有关键作用。

Jan, 2017

RU22Fact：俄乌冲突国际化可解释事实核查的证据优化

基于大型语言模型，从网络中自动检索和总结证据，以解决可解释的事实检查系统中提供足够和相关证据的挑战，并通过 RU22Fact 构建一个新颖的多语言可解释的事实检查数据集，基于该数据集开发出了一个端到端的可解释的事实检查系统，实验结果表明优化的证据可以提高事实检查性能，并显示端到端声明验证和解释生成任务有进一步进展的可能性。

Mar, 2024