- 密集检索中鲁棒性表示学习
提出了一种新方法来解决处理拼写错误查询的问题,并在两个基准数据集和两个基础编码器中取得了比现有方法更好的性能。
- SIGIR通过检索增强的多阶段训练实现弱监督科学文档分类
本研究提出了一种弱监督方法 (WANDER) 用于科学文献分类,使用标签名称作为唯一标注,利用稠密检索匹配方式捕捉标签名称的语义,并设计标签名称扩展模块来丰富标签名称的表示,最后使用自我训练步骤来细化预测,该方法在三个数据集上的表现优于最佳 - ACL多视角增强蒸馏:改进实体链接
本篇论文提出了一种多视图增强蒸馏框架,通过跨编解码器到对编解码器的多精细和提及相关部分的知识传输,从而有效地学习与不同提及相匹配的实体表示,实验表明该方法在几个实体链接基准上实现了最优性能。
- 极地鸭与寻找它们的方法:通过鸭子类型和极地盒嵌入增强实体链接
本文提出了 DUCK 方法,在实体表示的空间中注入结构信息,使用实体类型的先前知识,并将关系表示为超球上的盒子,优化模型以将相似类型的实体放置在与其关系对应的盒子中。实验结果表明,该方法在标准实体消歧基准测试上设置了新的最佳结果,提高了模型 - ACLBERM: 训练平衡且可提取的匹配表示以提高密集检索的泛化能力
本文介绍了一种通过捕获匹配信号来提高密集检索通用性的新方法 BERM,其中单篇文章分段成多个单元,根据单元级平衡语义和基本匹配单元可提取性的两个要求作为匹配信号的表示约束。实验结果表明,该方法可以有效地改善密集检索训练方法的普适性,而没有额 - SIGIR构建基于树的索引以实现高效稠密检索
本研究提出 JTR,通过联合优化基于树的索引和查询编码,采用负采样和聚类优化策略来提高检索效率,提高神经检索系统在检索性能和系统效率之间的平衡。
- 密集稀疏检索:使用稀疏语言模型进行推理高效密集检索
研究使用稀疏语言模型替代矢量检索系统来提高推理效率,实验结果表明使用 MSMARCO 数据集,精确度几乎没下降,推理速度最多提高了 4.3 倍。
- 如何训练你的龙:向通用密集检索的多样化增强
通过数据增强、对比学习等方法,本研究提出了一种新的稠密检索算法 DRAGON,使其在有监督检索和零样本检索方面均达到了最新水平,并与复杂的后期交互模型竞争。
- ACL通过图神经网络增强法规条款检索的搜索能力
本文提出一种结合了法律文本组织结构的图神经网络模型,通过稠密检索来检索法规文章,该方法有效提高了检索性能。
- 无相关标签的精确零样本密集检索
本篇论文中,我们提出一种基于 Hypothetical Document Embeddings (HyDE) 的零样本密集检索方法,其中通过无监督编码器将虚构文档编码为向量,并在文本相似性检索中表现出强大的性能。
- 使用文本扩展的密集检索课程采样
本文提出了一种课程抽样策略来对原始的双编码器的不足进行改进,使得检索模型能够学习将注意力从文档扩展至文档和查询,从而获得高质量的查询知情文档表示,实验结果表明,我们的方法优于以前的密集检索方法。
- MASTER: 多任务预训练的瓶颈掩蔽自编码器是更好的密集检索器
本文提出了一种名为 MASTER 的多任务预训练模型,以在压缩语义信息的同时,统一和整合多种具有不同学习目标的预训练任务,实现了语义信息与关系在稠密向量中的集成,该方法在多个大规模的文本检索数据集上都表现出优异的性能。
- 基于预训练语言模型的密集文本检索:一项调查研究
本文介绍了近期基于 PLMs 的 dense retrieval 的相关研究进展,从架构、训练、索引、集成四个方面总结了主流技术,并提供了网站和代码库等丰富资源以支持读者的研究工作。
- SeDR: 面向长文档的片段表示学习与密集检索
通过提出基于区间表征的密集检索技术(SeDR),采用区间交互 Transformer 编码超长的文档,并提出延迟缓存负样本的方法,提高了文档的表征质量和检索性能。在 MS MARCO 和 TREC-DL 数据集上的实验证明了该方法在长文档检 - EMNLP使用传送负样本减少密集检索训练中的灾难性遗忘
本文探究了密集检索训练中的不稳定性问题,提出了一种叫做 ANCE-Tele 的方法来解决 “灾难性遗忘” 现象,并比之前的同类系统性能更好。
- 短社交媒体文本中实体链接的强韧候选生成
研究了 Tweet 领域中实体链接方法的挑战,提出了一种使用来自维基百科的长上下文表示的混合解决方案,经过实验评估和比较,取得了 0.93 的召回率。
- WWWPROD: 稠密检索的渐进式蒸馏
PROD 是一种高效的知识蒸馏方法,包括教师渐进式蒸馏和数据渐进式蒸馏,可用于稠密检索,实验结果表明,PROD 在知识蒸馏方法中达到了最佳性能。
- HEARTS: 赞助搜索的稠密检索和非自回归生成的多任务融合
研究了 sponsored search 中解决匹配用户搜索查询和广告商提出的相关关键字的问题的两种方法,并提出了一种新的多任务融合框架 HEARTS,在 30 个以上国家的搜索查询上进行了广泛的实验,结果显示,HEARTS 比基准方法多检 - COLINGDPTDR: 深度提示调整用于稠密通道检索
本篇论文旨在研究在密集检索中,如何利用深度提示调整来减少部署成本,提出了两种与预训练语言模型和密集检索任务兼容的方法,并在 MS-MARCO 和自然问题数据集上取得了优于之前最先进模型的效果。
- 域和相关性分离建模用于可适应的密集检索
提出一种名为 Disentangled Dense Retrieval(DDR)的新型 Dense Retrieval 框架来支持 DR 模型的有效和灵活的领域自适应,该框架包括一个 Relevance Estimation Module(