CSPRD：中国股市金融政策检索数据集

Sep, 2023

CSPRD：中国股市金融政策检索数据集

CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market

Jinyuan Wang, Hai Zhao, Zhong Wang, Zeyang Zhu, Jinhao Xie...

TL;DR近年来，预训练语言模型（PLMs）取得了巨大进展，在密集文段检索方法上取得了令人满意的性能，旨在通过给定的问题从大规模语料库中检索相关文段。然而，现有数据集大多采用常识事实查询对模型进行基准测试，而金融和经济等专业领域由于缺乏大规模高质量的专家注释数据集而未被深入研究。本研究提出了一项新任务，即政策检索，通过引入中文股票政策检索数据集（CSPRD），该数据集由经验丰富的专家使用我们收集的中国政策语料库中的相关文章对 700 多个招股说明书文段进行了标注。对词汇、嵌入和经过微调的双编码模型进行的实验表明了我们提出的 CSPRD 的有效性，同时也显示出了进一步改进的潜力。我们最佳的基准模型在开发集上达到了 56.1％的 MRR@10，28.5％的 NDCG@10，37.5％的 Recall@10 和 80.6％的 Precision@10。

Abstract

In recent years, great advances in pre-trained language models (PLMs) have sparked considerable research focus and achieved promising performance on the approach of dense passage retrieval, which aims at retrievi

pre-trained language models dense passage retrieval chinese stock policy retrieval dataset bi-encoder models policy retrieval

发现论文，激发创造

Multi-CPR: 一个用于篇章检索的多领域中文数据集

本文介绍了一种新型的多领域中文数据集，用于特定领域的段落检索，并发现针对特定领域进行训练的检索模型可以明显提高性能，这表明了领域标注数据的必要性。

Mar, 2022

DPR 主题：用于密集段落检索的基于主题的提示

Topic-DPR 是一种基于主题的密集段落检索模型，通过对多个基于主题的提示进行优化和对比学习，使表示与其主题分布对齐，提高空间均匀性，并引入了一种新的正负采样策略来提高检索效率。实验证明，该方法超过了之前最先进的检索技术。

Oct, 2023

中文机器阅读理解的跨度抽取数据集

本文介绍了一个针对中文机器阅读理解的 Span-Extraction 数据集及其挑战集，共包含近 20,000 个人类专家在维基百科段落中标注的真实问题，并发布了 CMRC 2018 的评估工作坊，旨在进一步推进中文机器阅读理解研究。

Oct, 2018

控制令牌与密集段落检索

本研究解决了大型语言模型 (LLMs) 中的幻觉问题。我们采用了检索增强生成 (Retrieval-Augmented Generation, RAG) 技术，通过在提示信息中嵌入相关信息来获得准确答案。然而，RAG 在检索正确信息方面也面临固有问题。为了解决这个问题，我们采用了密集路径检索 (Dense Passage Retrieval, DPR) 模型，用于获取与用户查询相关的领域专业文档。尽管如此，DPR 模型在文档检索方面仍然精度不足。我们通过引入控制符号来增强 DPR 模型，取得了显著优异的性能，Top-1 准确率提高了 13%，Top-20 准确率提高了 4%。

May, 2024

检索增强生成：稠密段落检索是否正在检索？

密集路径检索（DPR）是提升大型语言模型（LLM）性能的检索增强生成（RAG）范式中的第一步，本研究通过探测、层激活分析和模型编辑的组合，深入研究 DPR fine-tuning，发现 DPR 训练方式中的去中心化存储及其对检索模型的限制，为密集检索提供了几个可能的方向：（1）将更多知识暴露给 DPR 训练过程以实现更多的去中心化，（2）将事实作为分散表示注入，（3）在检索过程中建模和融入知识的不确定性，以及（4）将内部模型知识直接映射到知识库。

Feb, 2024

CSL：一个大规模的中文科技文献数据集

本研究介绍了 CSL，一个包含 39.6 万篇中国科技文献的大型数据集，为中国自然语言处理和监督学习提供了有意义的语料库和标注。同时，本研究还基于 CSL 提出了一个基准用于评估模型在科技领域任务中的表现，如摘要生成、关键词提取和文本分类，并分析已有 NLP 模型在这些任务上的表现，揭示了进行中文科技 NLP 任务所面临的挑战。

Sep, 2022

基于嵌入式技术的淘宝搜索商品检索

本文探讨了电子商务平台中产品检索服务的质量问题。针对嵌入式检索系统中存在的问题，提出了一种新的多粒度深层语义产品检索模型。改进的算法通过平滑噪声数据和生成硬负样本来提高相关性，并在淘宝搜索上进行了线下和在线实验，证明了其有效性，并成功应用于现有的多通道检索系统中。

Jun, 2021

稠密通道检索器的复制研究

本研究对 Karpukhin 等人于 2020 年提出的基于稠密编码的全域问答模型（DPR）进行了复制研究，其中发现原作者低估了 BM25 基准检索的有效性。我们通过改进的答案跨度评分技术，使用与原论文相同的模型获得更好的端到端问题答案准确性。

Apr, 2021

STARD：一个包括非专业人员发出的真实查询的中文法规检索数据集

为了填补现有法律查询数据集对非专业用户提出的实际查询的不足，本文引入了 STAtute Retrieval Dataset（STARD），该数据集由 1543 个来自现实世界法律咨询的查询案例和 55348 个候选法规文章组成，并通过对各种检索基线模型进行综合评估，揭示了现有检索方法在非专业用户提交的实际查询中的不足，为进一步探索和研究提供了必要性。

Jun, 2024

DuReader_retrieval: 一个基于网络搜索引擎的大规模中文段落检索基准

本文介绍了一个大型的中文数据集 DuReader_retrieval，旨在解决其他数据集的不足之处并确保质量，其中包含来自商业搜索引擎的 90K 条查询和超过 8M 个唯一段落，并对开发和测试集中的结果进行手动注释以减少假阴性，并提供用于跨领域和跨语言检索的测试集。

Mar, 2022