May, 2024

ViWikiFC: 基于越南维基百科的文本知识事实核查源

TL;DR通过构建 ViWikiFC,我们首次为越南维基百科建立了一个手动注释的开放领域语料库,其中收录了超过 20K 个索证句,经由从维基百科文章提取的证据句生成。我们分析了我们的语料库的各个语言方面,包括新的依赖率、新的 n-gram 率和新的词汇率。我们进行了各种越南事实核查的实验,包括证据检索和判断预测。BM25 和 InfoXLM(Large)在两个任务中取得了最佳结果,其中 BM25 在证据检索任务中的 SUPPORTS 准确率为 88.30%,REFUTES 准确率为 86.93%,NEI 标签仅为 56.67%;InfoXLM(Large)在检索任务中取得了 86.51% 的 F1 分数。此外,我们还进行了一种流水线方法,但只有在使用 InfoXLM(Large)和 BM25 时,严格准确率达到了 67.00%。这些结果证明了我们的数据集对于越南语言模型在事实核查任务中是具有挑战性的。