HoVer:用于多跳事实提取和声明验证的数据集
构建一个可解释的事实验证系统在复杂的多跳场景中始终受到相关高质量数据集的缺失的阻碍。为了解决这个问题,我们提出了 EX-FEVER,一个用于多跳可解释事实验证的先驱数据集。我们的数据集包括超过 60,000 个主张,每个主张都涉及 2 跳和 3 跳推理,每个主张都有一个真实性标签和一个解释,概述了支持真实性分类的推理路径。
Oct, 2023
本文提出了一种新的检索目标 hop,通过跨链接和对应出站链接文档的组合来收集维基百科中隐藏的推理证据来回答复杂问题,构建了 HopRetriever 模型,并在 HotpotQA 数据集上实验,表明 HopRetriever 模型的证据检索效果更优秀,而且该方法可以给出对证据收集过程的可量化解释。
Dec, 2020
本文研究事实检查问题,特别是 Fact Extraction and VERification (FEVER) 任务及其相关数据集。通过分析不同方法的技术视角和在 FEVER 数据集上的性能结果,我们描述了所提出的方法,重点讨论了句子检索部分的有益损失函数的识别,最终描述了未来研究的开放问题和挑战。
Oct, 2020
本文介绍了一个新的公开可用的数据集 FEVER:事实提取和验证,它由 185,445 个主张组成,通过更改从维基百科中提取的句子并在不知道它们来自哪个句子的情况下进行验证。该数据集的挑战在于它的标注具有高度不确定性,作者开发了一种流水线方法对其进行测试,最佳的准确性达到了 31.87%。因此,FEVER 是一个具有挑战性的测试平台,可以帮助促进对文本来源的声明验证的进展。
Mar, 2018
本研究探讨了当前的事实检查系统面临的挑战,介绍了一种新的对抗性数据集,并提出了一种新的系统来处理多种类型的谎言,通过多个指针网络进行文档选择,并联合建模一系列证据句子和真实性关系预测,具有更优异的证据检索表现。
Apr, 2020
将现有的多跳数据集从抽取性答案转变为生成性答案,通过添加常识、算术和符号推理等问题层次,我们创建了一个新的多跳数据集 MoreHopQA,以评估五个大型语言模型,并发现相较于以往的数据集,我们的数据集更具挑战性,其中部分问题分解的分析表明虽然模型可以正确回答问题,但只有某个部分实现了完美推理。
Jun, 2024
本文提出了一个用于验证索赔的管线方法,在文档检索中使用了一种新的实体链接方法,并引入了两个 Enhanced LSTM (ESIM) 的扩展来对索取的事实进行排名并对索赔进行分类,方法得分第三。
Sep, 2018
论文介绍了一种新的认领审核数据集,其中包括来自搜索引擎查询的实例,共包含 10,987 个带有证据的主张,证据来自完整的维基百科文章,注释具有章节和句子级别的细粒度,通过总体评估,作者发现使用证据提取来总结最终用户的理由时,预测主张真实性的准确性并没有明显差异,此数据集还存在挑战性问题,作者在转移学习实验中进行了证明
Apr, 2021
我们提出了一种简单而高效的多跳密集检索方法来回答复杂的开放域问题,该方法在两个多跳数据集 HotpotQA 和多证据 FEVER 上实现了最先进的性能。与以前的工作相反,我们的方法不需要访问任何特定于语料库的信息(如文档间超链接或人工注释实体标记),可以应用于任何非结构化文本语料库。与已发布的 HotpotQA 的最佳准确度相匹配,同时在推理时间上快 10 倍,我们的系统也可以产生更好的效率 - 准确性权衡。
Sep, 2020