COLINGSep, 2020

一份用于评估机器阅读理解的越南语数据集

TL;DR本研究为缺乏基准数据集的低资源语言(如越南语)创建了一个新的数据集 UIT-ViQuAD,包含超过 23000 个由人类创建的问题 - 答案对和 174 篇来自维基百科的越南文章。通过用现有最先进的机器学习模型解决问题来比较联合测量人类表现和最佳模型表现的结果,结果表明,未来的研究可以提高越南 MRC 的准确度和性能。