COLINGApr, 2024

ReproHum #0087-01: 生成事实检查解释的人工评估复现报告

TL;DR这篇论文通过 ReproHum 元素,部分复现了 Anatanasova 等人(2020)的《生成事实检查解释》。在 ReproNLP 共同任务中,本共享任务旨在研究 NLP 作为一个领域在时间上变得更加可复现的程度。通过根据任务组织者和原始作者提供的指南,我们对 40 个输入的 3 个事实检查解释(包括一个黄金标准和两个模型的输出)进行了相对排名,评估了其覆盖范围。我们的复现和对原始结果的再分析结果支持原论文的发现,原始论文与我们的复现结果之间存在类似的模式。尽管我们观察到与原始结果略有不同的变化,但我们的发现支持原始作者关于其提出的模型的有效性的主要结论。