DeSePtion: 双序列预测和对抗样本用于改善事实检查
本文研究事实检查问题,特别是 Fact Extraction and VERification (FEVER) 任务及其相关数据集。通过分析不同方法的技术视角和在 FEVER 数据集上的性能结果,我们描述了所提出的方法,重点讨论了句子检索部分的有益损失函数的识别,最终描述了未来研究的开放问题和挑战。
Oct, 2020
本文的 FEVER2.0 基准测试通过生成针对系统的对抗性攻击探索了 NN 模型在事实提取和验证任务中的鲁棒性,结果表明深度神经网络在处理 pattren 异常的样本时效果较差,提出对这类攻击进行研究有助于构建更健壮的事实检查模型,同时建议扩展数据集。
Mar, 2019
本文介绍了一个新的公开可用的数据集 FEVER:事实提取和验证,它由 185,445 个主张组成,通过更改从维基百科中提取的句子并在不知道它们来自哪个句子的情况下进行验证。该数据集的挑战在于它的标注具有高度不确定性,作者开发了一种流水线方法对其进行测试,最佳的准确性达到了 31.87%。因此,FEVER 是一个具有挑战性的测试平台,可以帮助促进对文本来源的声明验证的进展。
Mar, 2018
本文介绍了首个事实提取和验证(FEVER)共享任务的结果,该任务要求参与者使用从 Wikipedia 检索到的证据来判断是否可以支持或反驳人工编写的事实性声明。我们收到了来自 23 个竞争团队的条目,其中 19 个得分高于以前发布的基线。最佳表现系统的 FEVER 得分达到 64.21%。
Nov, 2018
本文提出了一个用于验证索赔的管线方法,在文档检索中使用了一种新的实体链接方法,并引入了两个 Enhanced LSTM (ESIM) 的扩展来对索取的事实进行排名并对索赔进行分类,方法得分第三。
Sep, 2018
构建一个可解释的事实验证系统在复杂的多跳场景中始终受到相关高质量数据集的缺失的阻碍。为了解决这个问题,我们提出了 EX-FEVER,一个用于多跳可解释事实验证的先驱数据集。我们的数据集包括超过 60,000 个主张,每个主张都涉及 2 跳和 3 跳推理,每个主张都有一个真实性标签和一个解释,概述了支持真实性分类的推理路径。
Oct, 2023
该论文提出了一个连接的系统,包括三个同构神经语义匹配模型,用于联合进行文献检索、句子选择和索证,以进行事实提取和验证。实验结果表明,该神经语义匹配方法在所有证据检索指标上都显著超越了常见的 TF-IDF 和编码器模型,并通过提供内部语义关联得分和词汇网特征等方法,改进了 NLI 模型的性能,从而在 FEVER 测试集上取得了最优结果。
Nov, 2018
本文提出了针对机器学习和自然语言处理领域中问题验证的一个新数据集和一个基线模型,数据集包含了包括非结构化文本和结构化表格在内的 87026 个证明,并详细描述了数据集中存在的偏见及模型的防范措施。
Jun, 2021
本文介绍 BEVERS,一个用于 Fact Extraction and VERification 数据集的调谐基线系统,用于文档检索、句子筛选和最终主张分类,并在数据集中获得了最高的 FEVER 得分和标签正确率。此外,作者还在 Scifact 上获得了最高的标签正确率,并公开了全部代码。
Mar, 2023
通过将 Fact Extraction and Verification (FEVER) 数据集的索赔和证据文本翻译成六种语言,我们构建了用于比较不同语言上事实验证模型的跨语言事实提取和验证(XFEVER)数据集。使用 XFEVER 数据集,本文定义了两种跨语言事实验证场景,即零样本学习和翻译训练学习,并提出了每个场景的基准模型。实验结果显示,多语言语言模型可以有效地构建不同语言上的事实验证模型,但性能因语言而异,相对英文情况稍差。我们还发现,通过考虑英语和目标语言之间的预测相似性,可以有效地减轻模型的误差校准问题。XFEVER 数据集、代码和模型检查点可在此 https URL 中获取。
Oct, 2023