针对事实提取和验证的对抗攻击

Mar, 2019

Adversarial attacks against Fact Extraction and VERification

James Thorne, Andreas Vlachos

TL;DR本文的 FEVER2.0 基准测试通过生成针对系统的对抗性攻击探索了 NN 模型在事实提取和验证任务中的鲁棒性，结果表明深度神经网络在处理 pattren 异常的样本时效果较差，提出对这类攻击进行研究有助于构建更健壮的事实检查模型，同时建议扩展数据集。

Abstract

This paper describes a baseline for the second iteration of the Fact Extraction and VERification shared task (fever2.0) which explores the resilience of systems through adversarial evaluation. We present a collection of simple →

fever2.0 adversarial attacks deep neural networks fact-checking models datasets

发现论文，激发创造

DeSePtion: 双序列预测和对抗样本用于改善事实检查

本研究探讨了当前的事实检查系统面临的挑战，介绍了一种新的对抗性数据集，并提出了一种新的系统来处理多种类型的谎言，通过多个指针网络进行文档选择，并联合建模一系列证据句子和真实性关系预测，具有更优异的证据检索表现。

Apr, 2020

事实提取与验证综述

本文研究事实检查问题，特别是 Fact Extraction and VERification (FEVER) 任务及其相关数据集。通过分析不同方法的技术视角和在 FEVER 数据集上的性能结果，我们描述了所提出的方法，重点讨论了句子检索部分的有益损失函数的识别，最终描述了未来研究的开放问题和挑战。

Oct, 2020

事实提取和验证（FEVER）共享任务

本文介绍了首个事实提取和验证（FEVER）共享任务的结果，该任务要求参与者使用从 Wikipedia 检索到的证据来判断是否可以支持或反驳人工编写的事实性声明。我们收到了来自 23 个竞争团队的条目，其中 19 个得分高于以前发布的基线。最佳表现系统的 FEVER 得分达到 64.21％。

Nov, 2018

UKP-Athene: 面向声明验证的多句文本蕴涵

本文提出了一个用于验证索赔的管线方法，在文档检索中使用了一种新的实体链接方法，并引入了两个 Enhanced LSTM (ESIM) 的扩展来对索取的事实进行排名并对索赔进行分类，方法得分第三。

Sep, 2018

FEVER: 一个用于事实提取和验证的大规模数据集

本文介绍了一个新的公开可用的数据集 FEVER：事实提取和验证，它由 185,445 个主张组成，通过更改从维基百科中提取的句子并在不知道它们来自哪个句子的情况下进行验证。该数据集的挑战在于它的标注具有高度不确定性，作者开发了一种流水线方法对其进行测试，最佳的准确性达到了 31.87％。因此，FEVER 是一个具有挑战性的测试平台，可以帮助促进对文本来源的声明验证的进展。

Mar, 2018

使用神经语义匹配网络结合事实提取与验证

该论文提出了一个连接的系统，包括三个同构神经语义匹配模型，用于联合进行文献检索、句子选择和索证，以进行事实提取和验证。实验结果表明，该神经语义匹配方法在所有证据检索指标上都显著超越了常见的 TF-IDF 和编码器模型，并通过提供内部语义关联得分和词汇网特征等方法，改进了 NLI 模型的性能，从而在 FEVER 测试集上取得了最优结果。

Nov, 2018

FEVEROUS: 面向结构化和非结构化信息的事实提取与验证

本文提出了针对机器学习和自然语言处理领域中问题验证的一个新数据集和一个基线模型，数据集包含了包括非结构化文本和结构化表格在内的 87026 个证明，并详细描述了数据集中存在的偏见及模型的防范措施。

Jun, 2021

BERT 用于证据检索和主张验证

本研究针对 FEVER 事实抽取和验证挑战，探讨了使用预训练语言模型 BERT 实现证据检索和主张验证的方法，并使用 pointwise 和 pairwise 损失函数进行模型训练。实验结果表明，我们的系统在使用 50K Wikipedia 页面的 FEVER 文档进行前五个句子的检索时实现了 87.1 的最新召回率，并在官方排行榜中获得了 FEVER 得分 69.7 的第二名。

Oct, 2019

使用实体识别、TFIDF 向量比较和可分解注意力进行事实验证的 DeFactoNLP

本文描述了 DeFactoNLP 系统，该系统用于自动评估声明的准确性并从维基百科中检索支持此评估的证据。我们的方法基于 TFIDF 向量和被提出的命名实体来识别包含证据的维基百科文章，并通过文本蕴涵识别模块来计算句子支持声明的概率。我们的方法在 FEVER 2018 共享任务中获得了不错的表现。

Sep, 2018

Papelo 团队：在 FEVER 上使用 Transformer 网络

本研究开发了一种基于 transformer 网络预训练的高精度蕴含分类器，用于对 FEVER 事实提取和验证挑战中的广泛潜在证据进行分类，从而提高了召回率；在初步评估中，该系统在 FEVER 公共数据集上取得了.5736 的 FEVER 得分、.6108 的标签准确性和.6485 的证据 F1 值。

Jan, 2019