- EMNLPDuReader_retrieval: 一个基于网络搜索引擎的大规模中文段落检索基准
本文介绍了一个大型的中文数据集 DuReader_retrieval,旨在解决其他数据集的不足之处并确保质量,其中包含来自商业搜索引擎的 90K 条查询和超过 8M 个唯一段落,并对开发和测试集中的结果进行手动注释以减少假阴性,并提供用于跨 - ACL超链接诱导的预训练:面向开放领域问答的段落检索
提出 HyperLink-induced Pre-training (HLP) 方法来解决文档中基于超链接拓扑结构的相关性所面临的问题,为大规模预训练提供更加有效的相关性信号,从而使得在问答过程中的段落检索能够被更好地实现。在各种场景下,H - SIGIRMulti-CPR: 一个用于篇章检索的多领域中文数据集
本文介绍了一种新型的多领域中文数据集,用于特定领域的段落检索,并发现针对特定领域进行训练的检索模型可以明显提高性能,这表明了领域标注数据的必要性。
- EMNLPCONQRR:基于强化学习的检索型对话查询重写
CONQRR 使用强化学习训练了一个新的查询重写模型,使得原本用于非对话查询的信息检索引擎能够在对话的语境下得到有效的应用,并在最近的 CQA 数据集中实现了最新的成果,同时对于领域外的对话和零查询重写监督具有可靠性。
- ACLKG-FiD:将知识图谱融入解码器中进行开放领域问答
本文提出了一种新方法 KG-FiD,利用知识图谱过滤有噪声的检索段落,以及基于图神经网络的重排序方法,以提高开放域问答模型 FiD 的效率和准确性。
- EMNLP基于 BERT 的段落检索和排名中处理打字错误的方法
本文探讨了针对关键字错别字造成的关键字不匹配所产生的影响,针对这一问题,我们提出了简单而有效的错别字感知培训框架,实验证明该框架可以显著提高 DR 和 BERT Re-ranker 的有效性。
- SIGIR用于外部知识视觉问答的段落检索
本文研究了在多模态信息检索场景下,运用解析文本问题和图像进行感知的方法,探索了基于自定义大型未结构化收集文本的文本检索方法,并在此基础上构建了一个双编码器稠密信息检索模型,通过实验对模型进行了验证,得出了补充文本拓扑自动增强方法对检索结果的 - EMNLP多样化多项答案检索的联合通道排名
本文介绍了第一个联合检索模型,JPR,用于多答案检索,并使用自回归评分器选择一系列段落,JPR 能够在每个时间步选择覆盖新答案的段落,并使用树解码算法增加多样性。与之前的方法相比,JPR 在三个多答案数据集上实现了显著更好的答案覆盖率,使得 - 基于嵌入的零样本检索通过查询生成
本文通过采用两塔架构来建立神经检索模型,并提出了一种新的用于检索的合成数据生成方法,显著优于基于词汇匹配算法的 BM25,并在 5 个测试数据集中平均提高 Recall@1 指标 2.45 个点。
- WSDM面向会话问答的问题重写
本论文介绍了一种分解对话问答任务的方法,包括问题重写和问题回答。通过引入一种新的对话 QA 架构和一个问题重写模型,证明了这种方法在 TREC CAsT 2019 建议检索数据集上已经达到了最新的技术水平,并在 QuAC 数据集中优于我们的 - SIGIR通过上下文重点预测实现扩展
本文提出了一种通过基于上下文的语言模型来显式建模每个词汇的重要性、扩展查询方法以及基于词典对表示的理解性进行打分的 EPIC 方法,该方法在 MRR@10 上达到了 0.304,且能够显著提高检索效果和降低硬件的查询延迟。
- 领域定向合成问题生成进行零样本神经网络段落检索
通过合成问题生成技术缩小了零样本训练模型与基于术语技术模型之间的差距,提高了针对特定领域的文档的检索效果。
- EMNLP用于开放式领域问答的密集式检索
本研究展示了如何使用密集向量表示实现开放领域的问答,通过一个简单的双编码框架,通过从一小部分问题和段落中学习嵌入来实现检索,并在多个开放域 QA 基准测试中超越了传统的基于 TF-IDF 或 BM25 的方法,为终端 QA 系统的最新性能奠 - 针对第一阶段检索的上下文感知句子 / 段落术语重要性估计
本文提出了 Deep Contextualized Term Weighting 框架,可以将 BERT 的上下文表示映射到句子和段落的上下文感知权重,用于段落检索和一阶段检索算法,实验表明 DeepCT 的深层上下文理解显著提高了一阶段检 - 开放域问答中 BERT 微调的数据增强
本文介绍一种利用远程监督的数据增强技术来优化基于 passage retrieval 和 BERT 阅读器的问答模型的方法,通过迭代式的参数微调方法在多个数据集上进行实验,并在英文和中文数据集上取得了明显的提升。