- DREditor:一种构建领域特定稠密检索模型的高效方法
通过线性映射来编辑匹配规则,以适应特定领域,提供高效率的检索模型,并填补当前嵌入校准领域的技术空白,为构建特定领域的高效低成本的密集检索模型奠定基础。
- 在多语言多层次检索中,利用 LLMs 合成训练数据
通过使用 SWIM-IR 合成训练数据集,我们研究了多语言密集检索模型的能力,并在三个检索基准上对其进行了全面评估,发现 SWIM-IR 可以以较低成本替代昂贵的人工标记检索训练数据。
- EMNLP密集检索的噪声对矫正器
本文介绍了一种名为 Noisy Pair Corrector (NPC) 的新方法,该方法包含一个检测模块和一个校正模块,用于训练具有不匹配对噪声的有效模型,并在实验中展示了其在处理合成和实际噪声方面的出色性能。
- ControlRetriever: 利用指令的威力实现可控检索
使用控制器架构的 ControlRetriever,通过自然语言中提供的特定检索意图,解决了密集检索模型在不同检索任务中表现不佳的问题,同时结合大型语言模型的发展,提出了一种新的策略来迭代地训练 ControlRetriever,经过大量实 - 针对密集检索模型的黑盒对抗攻击:一种多视图对比学习方法
针对密集检索模型的鲁棒性,我们提出了对抗性检索攻击(AREA)任务,并借鉴对神经排名模型的攻击方法,通过在多视图表示空间中鼓励每个视图表示与目标文档以及对应的查看者之间的一致性,以小的不可察觉的文本干扰显著提高攻击效果。
- ACL构建可解释和可靠的新领域开放信息检索器
提出了一种信息检索管道,利用实体 / 事件链接模型和查询分解模型来更准确地关注查询的不同信息单元,该管道显著提高了对五个信息检索和问答基准的段落覆盖率和指代准确性。由于其卓越的可解释性和跨领域性能,它将成为需要在新领域上执行信息检索而无需大 - 使用目标领域描述的密集检索适应
该研究介绍了信息检索领域中一个新的领域适应类别,提出了一种基于分类的领域属性描述和自动数据构建方法以改善检索模型在目标领域的性能。
- 生成式检索模型的稳健性:一种越界的视角
本文通过定义三个角度的 OOD 鲁棒性来分析多个代表性的生成式检索模型和密集型检索模型的 OOD 鲁棒性,并得出生成式检索模型需要提高 OOD 鲁棒性的结论。
- SIGIR信息检索的多元表示学习
本文提出了一种新颖的表示学习框架,用于密集检索模型,框架采用多元分布作为表示,使用负多元 KL 散度计算相似性,在现有的最近邻算法中无缝集成,实验结果表明,较竞争的密集检索模型有显著的改进。
- 深度检索与无法回答的反事实情况再探讨
本文介绍了一个新颖的检索方法 PiCL,它利用反事实样本来训练检索器以提高检索准确率,并在开放域问答基准测试中证明了其有效性和鲁棒性。
- 通过可控的查询生成提高搜索中的内容可检索性
在线平台中重要的目标是促进内容发现,然而,机器学习搜索引擎存在较高的检索偏差,我们提出了一种生成查询的方法,旨在改善训练数据和查询分布对检索能力的负面影响。在音乐、播客和图书等领域的数据集上,使用 CtrlQGen 明显减少了密集检索模型的 - 面向任务的特定领域优化,用于高效和稳健的对于开放域问答的密集检索
提出了一种新的体系结构,Task-aware Specialization for dense Retrieval (TASER),该模型通过交错共享模块和专用模块在单个编码器中实现参数共享,能够在使用密集检索模型时提高准确性并显著减少了参 - 各向同性表示可以提高密集检索性能
本研究使用 Normalizing Flow 和 whitening 等无监督的后处理方法,提出一种基于令牌和序列的方法来处理密集检索模型的表示,优化 BERT 表示的各向同性分布,实验结果表明,这种方法可以显著提高文档排序的性能,并在处理 - 是否已经到达目的地?一种替换基于词项检索的密集检索系统的决策框架
本论文提出具有一套标准的框架来比较两种检索系统,该框架以除了简单效果措施之外的标准来衡量,旨在评估一个系统取代另一个系统的准备情况。在 Web 排名方案中,最先进的 DR 模型不仅在平均性能方面表现出色,而且通过广泛的保护装置测试,在不同的 - 训练多语言密集检索模型最佳实践
本研究旨在探讨如何在不同语言中使用基于转换器的双编码器设计实现单语检索,包括使用多语言变压器的交叉语言一般化能力,在多场景下使用最佳实践指南解决单语检索问题,从而为构建低资源语言的搜索应用提供指南和基础。
- ACL使用插值和扰动增强密集检索中的文档表示
提出一种 DAR 方案,通过对文档的内插和扰动来增强文档表示,实现无监督学习的稠密检索,显著优于相关基线。
- EMNLPCODER: 通过上下文文档嵌入重新排序的有效优化框架
通过引入 Contextual Document Embedding Reranking (CODER),可以显著提高基于对比学习的密集检索模型的检索性能,特别是当更多的相关信息可用时,如在 TripClick 集合中观察到的情况下,可以获 - EMNLP简单实体中心问题挑战密集检索器
本文主要研究使用 Wikidata 数据构造的 entity-rich questions 在密集检索模型中表现不佳的问题,并探讨了两种解决方案:第一种解决方法是数据扩充无法解决广义化问题,第二种解决方法是更加强大的 passage enc - SIGIR高效均衡主题感知采样,有效教授密集检索器
本研究旨在将神经网络模型运用到信息检索模型中,引入了一种名为 TAS-Balanced 的高效查询和平衡边缘抽样技术,结合了成对和批内负面教师,实现了单 GPU 训练的 6 层 DR 模型,以及在 TREC 深度学习基准赛中,取得了领先于其