Apr, 2017

SearchQA:一份由搜索引擎中加强了语境的新问答数据集

TL;DR该研究提出了一个名为 SearchQA 的数据集,该数据集用于机器理解和问答,并通过从 J! Archive 爬取的现有问题 - 答案配对及 Google 检索的文本片段进行扩充。在 SearchQA 中,包含了 14 万个问题 - 答案对,每个对平均包含 49.6 个片段。使用人类评估以及两种基准方法进行测试,研究显示了人类和机器表现之间的显著差距,表明所提出的数据集可作为问答的基准。