Apr, 2021

GermanQuAD 和 GermanDPR: 提高非英语问答和文章检索的能力

TL;DR本文介绍了一个非英语机器阅读问答研究的主要挑战:缺乏注释数据集。我们随后提出一个德语 QA 数据集(GermanQuAD),总结经验教训,并评估 QA 问答对重组的效果,以加速注释过程。通过 GermanQuAD 数据训练,提出的 QA 模型明显优于多语言模型。最后,将数据集适应于 DPR 语言,训练了第一款非英语 DPR 模型。