May, 2017

TriviaQA:一个大规模远程监督的挑战性阅读理解数据集

TL;DRTriviaQA 是一个具有挑战性的阅读理解数据集,包含超过 650k 个问题 - 答案 - 证据三元组,该数据集需要进行跨句子推理和包含看似复杂、组合式、句法和词汇变化巨大的问题,并提供了两种基线算法:基于特征的分类器和最先进的神经网络,它们在 SQuAD 阅读理解上表现良好,但都无法接近人类表现(23%和 40%与 80%),因此需要进一步的研究。