Dec, 2019

面向多语言问答的 SQuAD 数据集自动西班牙语翻译

TL;DR本文提出 Translate Align Retrieve (TAR) 方法,通过将 Stanford Question Answering Dataset(SQuAD)v1.1 自动翻译成西班牙语,创建了大规模的西班牙语 QA ​​training dataset。使用此数据集通过微调 Multilingual-BERT 模型训练了西班牙语 QA 系统,并在 MLQA 和 XQuAD 基准测试上进行了评估,结果表明该方法优于 Multilingual-BERT 基线,达到了新的最高 69.1 F1 分数。