EMNLPMar, 2022

DuReader_retrieval: 一个基于网络搜索引擎的大规模中文段落检索基准

TL;DR本文介绍了一个大型的中文数据集 DuReader_retrieval,旨在解决其他数据集的不足之处并确保质量,其中包含来自商业搜索引擎的 90K 条查询和超过 8M 个唯一段落,并对开发和测试集中的结果进行手动注释以减少假阴性,并提供用于跨领域和跨语言检索的测试集。