可微搜索指针的 Transformer 内存
该研究提出了一种名为 DSI-QG 的简单而有效的检索框架,用于解决当前 DSI 模型存在的数据分布不匹配问题,该框架通过查询生成模型和跨编码器排序器生成潜在相关查询,改善了检索和检索过程之间的数据分布不匹配问题,并在流行的单语和跨语言检索数据集上显著优于原始 DSI 模型。
Jun, 2022
DSI++ 是一项针对可微搜索引擎的持续学习挑战,旨在在索引新文档的同时能够回答先前和新文档相关的查询,通过训练集合内的平缓局部最小值和引入生成性记忆等方法,成功缓解了模型遗忘现象,并大幅提高了检索能力。
Dec, 2022
De-DSI 是一种新颖的框架,通过将大型语言模型(LLMs)与信息检索真正的分布式化相结合,特别是在分布式环境中采用可微分搜索索引(DSI)的概念,以有效地将新颖的用户查询与文档标识符连接起来,在仅使用查询 - 文档标识符对上进行操作。该框架通过引入 DSI 模型的集合来提高可扩展性,其中数据集被分割为较小的片段进行单独的模型训练。通过使用波束搜索来识别顶级文档标识符并应用 softmax 函数进行评分归一化,从而选择具有最高得分的文档进行检索。该分布式实现表明检索成功率与集中式方法相当,同时具有将计算复杂性分布到网络中的额外好处。该设置还允许通过磁力链接检索多媒体项目,消除了平台或中介的需求。
Apr, 2024
Differentiable Search Index 是最近提出的一种用于文档检索的范例,通过将文档语料库的信息编码在神经网络的参数中,并直接将查询映射到相应的文档。本文提出了一种名为 IncDSI 的方法,可以在实时环境下添加文档(每个文档约 20-50ms),而无需对整个数据集或其部分进行重新训练。我们将文档添加视为一个约束优化问题,以最小程度地修改网络参数。尽管速度快了数个数量级,我们的方法与在整个数据集上重新训练模型的方法具有竞争力,并能够实时更新的文档检索系统的开发。IncDSI 的代码可在此 URL 获得。
Jul, 2023
PromptDSI 是一种无需重复训练的、基于提示的增量学习方法,使用冻结的 PLM 编码器,并利用其强大的表示能力来高效地索引新的文集,同时维持稳定性和适应性的平衡。该方法通过消除基于提示的持续学习方法的初始前向传播来减少训练和推理时间,并提出了一种基于主题的提示池策略,使用神经主题嵌入作为固定的键,以确保多样化和有效的提示使用,并解决查询键匹配机制崩溃引起的参数低效利用的挑战。我们的实证评估表明,PromptDSI 在管理遗忘方面与 IncDSI 相当,同时在新的文集上提高召回率超过 4%。
Jun, 2024
信息检索的研究领域逐渐扩大,从搜索服务发展为各种高级应用的关键组成部分。为了提高检索效率、成本效益和实时性,本文介绍了一种名为 Semi-parametric Vocabulary Disentangled Retrieval(SVDR)的新型半参数化检索框架。在三个开放域问答基准测试中,使用整个维基百科语料库进行评估,SVDR 始终显示出卓越性能。它使用基于嵌入的索引在 top-1 检索准确率上比基于嵌入的检索方法 DPR 高出 3%,使用基于二进制令牌的索引在 top-1 准确率上比 BM25 高出 9%。采用二进制令牌索引的方式将索引准备时间从 30 个 GPU 小时减少到仅需 2 个 CPU 小时,存储空间从 31 GB 减少到 2 GB,实现了 90%的降低,相较于基于嵌入的索引。
May, 2024
本文对生成式检索技术进行了第一次经验研究,通过使用合成查询作为文档表示进行索引,以及调整内部架构,探索了在不同语料库规模下扩展生成式检索的几个关键点,发现在小规模语料库上生成式检索和最先进的双编码器具有竞争力,但在数百万篇章的大规模语料库上实现可扩展性仍然是一个重要的未解决问题。
May, 2023
dIR 是一种离散信息检索方法,利用大语言模型(LLM)将文本转化为表达性的表示形式,并通过文本到 SQL 的语义解析器进行查询。该方法使得在自由文本上进行新一类查询成为可能,相较于传统的经过精细调整的密集嵌入模型和基于 SQL 的知识库。
Dec, 2023
本文介绍了一种名为 QDS-Transformer 的算法,它在 Transformer 自注意力机制的基础上,设计了稀疏的查询导向注意力机制,以在文档排序任务中实现本地化背景、分层表示和查询定向的邻近匹配,同时还具有稀疏性和计算效率。实验证明,QDS-Transformer 模型在全监督和少样本 TREC 排名基准中具有稳定和强大的优势。
Oct, 2020
本研究旨在探讨如何在不同语言中使用基于转换器的双编码器设计实现单语检索,包括使用多语言变压器的交叉语言一般化能力,在多场景下使用最佳实践指南解决单语检索问题,从而为构建低资源语言的搜索应用提供指南和基础。
Apr, 2022