EMNLPSep, 2021

MFAQ:多语言 FAQ 数据集

TL;DR本文提出了第一个公开的多语言 FAQ 数据集,并采用 Dense Passage Retrieval 的类似设置和测试各种双编码器。实验结果表明,基于 XLM-RoBERTa 的多语言模型是最好的选择,尤其是对于低资源语言。此外,我们的定性分析揭示了模型对简单单词变化的脆弱性。