Dec, 2019
面向多语言问答的SQuAD数据集自动西班牙语翻译
Automatic Spanish Translation of the SQuAD Dataset for Multilingual
Question Answering
TL;DR本文提出Translate Align Retrieve (TAR)方法,通过将Stanford Question Answering Dataset(SQuAD)v1.1自动翻译成西班牙语,创建了大规模的西班牙语QA training dataset。使用此数据集通过微调Multilingual-BERT模型训练了西班牙语QA系统,并在MLQA和XQuAD基准测试上进行了评估,结果表明该方法优于Multilingual-BERT基线,达到了新的最高69.1 F1分数。