Sep, 2023

CSPRD:中国股市金融政策检索数据集

TL;DR近年来,预训练语言模型(PLMs)取得了巨大进展,在密集文段检索方法上取得了令人满意的性能,旨在通过给定的问题从大规模语料库中检索相关文段。然而,现有数据集大多采用常识事实查询对模型进行基准测试,而金融和经济等专业领域由于缺乏大规模高质量的专家注释数据集而未被深入研究。本研究提出了一项新任务,即政策检索,通过引入中文股票政策检索数据集(CSPRD),该数据集由经验丰富的专家使用我们收集的中国政策语料库中的相关文章对 700 多个招股说明书文段进行了标注。对词汇、嵌入和经过微调的双编码模型进行的实验表明了我们提出的 CSPRD 的有效性,同时也显示出了进一步改进的潜力。我们最佳的基准模型在开发集上达到了 56.1%的 MRR@10,28.5%的 NDCG@10,37.5%的 Recall@10 和 80.6%的 Precision@10。