无监督事实核实的问答

EMNLPOct, 2019

Unsupervised Question Answering for Fact-Checking

Mayank Jobanputra

TL;DR本文提出了一种基于无监督问答的事实检查方法，通过使用 Bert 对 FEVER 数据集进行 Cloze 任务转换，以预测答案标记，并计算基于正确回答的问题和阈值的标签。该方法在转换后的数据集上在开发集和测试集上分别实现了 80.2％和 80.25％的标签准确率。

Abstract

Recent deep learning (DL) models have succeeded in achieving human-level accuracy on various natural language tasks such as question-answering, natural language inference (NLI), and textual entailment. These task

deep learning question-answering fact-checking named entities bert

发现论文，激发创造

简单有效的半监督问答

本研究提出一种利用基础文档和少量标注数据进行深度学习提取式问答的方法，并通过对三个不同领域数据集的实验验证了其有效性。

Apr, 2018

QA-NatVer: 自然逻辑为基础的事实验证的问答

使用问题回答预测自然逻辑运算符，不依赖标注数据、具有确定性推理系统的方法，在少样本设置下，在 FEVER 上的准确度比最佳基线提高了 4.3 个百分点，并且在丹麦验证数据集上超过了所有其他方法，展示了系统的鲁棒性和可移植性，通过人工评估得出结论：相较于之前的基于自然逻辑的系统，我们的方法产生了更可信的证据，并且使用更少错误的自然逻辑运算符。

Oct, 2023

使用实体识别、TFIDF 向量比较和可分解注意力进行事实验证的 DeFactoNLP

本文描述了 DeFactoNLP 系统，该系统用于自动评估声明的准确性并从维基百科中检索支持此评估的证据。我们的方法基于 TFIDF 向量和被提出的命名实体来识别包含证据的维基百科文章，并通过文本蕴涵识别模块来计算句子支持声明的概率。我们的方法在 FEVER 2018 共享任务中获得了不错的表现。

Sep, 2018

使用神经语义匹配网络结合事实提取与验证

该论文提出了一个连接的系统，包括三个同构神经语义匹配模型，用于联合进行文献检索、句子选择和索证，以进行事实提取和验证。实验结果表明，该神经语义匹配方法在所有证据检索指标上都显著超越了常见的 TF-IDF 和编码器模型，并通过提供内部语义关联得分和词汇网特征等方法，改进了 NLI 模型的性能，从而在 FEVER 测试集上取得了最优结果。

Nov, 2018

基于填空翻译的无监督问答

本文探讨了利用无监督方法合成训练集数据以及不匹配的语料库训练 NMT 模型作为 cloze-to-natural question translator 来更有效地训练 QA 模型，这种方法已经在 SQuAD v1 数据集上验证，并且相较于过去的监督学习方法取得更好的表现。

Jun, 2019

基于 LSTM 的深度学习模型用于非事实答案选择

本文探索了一种深度学习框架，用于解决答案选择问题，结合双向长短期记忆模型、卷积神经网络和注意力机制，结果表明该模型在 TREC-QA 和 InsuranceQA 数据集上优于已有模型。

Nov, 2015

应用深度学习进行答案选择研究和开放任务

应用深度学习框架解决非事实类问答任务，在保险领域创建和发布了问答语料库，实验结果表明性能优于基线方法和其他技术，对于这个高度具有挑战性的任务，测试集的最高准确率可达到 65.3％，具有广泛的实用潜力。

Aug, 2015

BERT 用于证据检索和主张验证

本研究针对 FEVER 事实抽取和验证挑战，探讨了使用预训练语言模型 BERT 实现证据检索和主张验证的方法，并使用 pointwise 和 pairwise 损失函数进行模型训练。实验结果表明，我们的系统在使用 50K Wikipedia 页面的 FEVER 文档进行前五个句子的检索时实现了 87.1 的最新召回率，并在官方排行榜中获得了 FEVER 得分 69.7 的第二名。

Oct, 2019

自然语言推理在生物医学问答中的可迁移性

本文提出了一种在生物医学问答任务中应用预训练语言模型和迁移学习的方法，并通过实验证明优化迁移学习任务的顺序可以显著提高其性能。

Jul, 2020

检测不需要事实判断的响应生成

大型语言模型在对话中实现吸引力和真实性的研究，通过众包创建了一个对话数据集，用于分类任务，并且最高分类准确率达到了 88%。

Jun, 2024