COLINGApr, 2020

Molweni:挑战多方对话基础机器阅读理解数据集带有话语结构

TL;DR本文介绍了 Molweni 数据集,这是一个具有复杂话语结构的机器阅读理解数据集,其中包含来自 Ubuntu Chat 语料库的 10,000 个多方对话,我们对该数据集进行了超过 30,000 个问题的注释,并为所有多方对话贡献了大规模(78,245 个注释话语关系)的数据。在实验中,该数据集证明了对于当前的 MRC 模型是具有挑战性的。