ColBERT是一种基于深度语言模型的信息检索方法,通过实现一种廉价而又强大的互动机制,将查询和文档分别进行编码,然后为它们建立细粒度相似性,从而利用深度语言模型的表现力,同时加快查询处理。
Apr, 2020
本研究介绍了ColBERTv2,结合积极的残差压缩机制和去噪监督策略,以提高对最晚交互的质量和占用空间的同时评估了广泛的基准。
Dec, 2021
本文介绍了 ColBERT-X,这是一个使用 XLM-RoBERTa 编码器的多重表示稠密检索模型,用于支持跨语言信息检索(CLIR)。在几种语言的自适应文件排名任务上表现出了在传统词汇 CLIR 基线之上的显着和统计上的显着改进。
Jan, 2022
本文提出了ColBERTer,这是一个使用上下文化的ColBERT模型与增强的减少方法的神经检索模型。它采用了单向量检索、多向量细化和可选词汇匹配组件,其多向量组件通过学习每个文档中的项的唯一整词表示并学习识别和删除对于有效评分来说不必要的词表示,可以将文档的存储向量数量减少2.5倍。结果表明,ColBERTer可以提高检索结果的可解释性,同时保持检索结果的有效性,并且具有多任务学习的特点。
Mar, 2022
本研究旨在探讨如何在不同语言中使用基于转换器的双编码器设计实现单语检索,包括使用多语言变压器的交叉语言一般化能力,在多场景下使用最佳实践指南解决单语检索问题,从而为构建低资源语言的搜索应用提供指南和基础。
Apr, 2022
通过使用SWIM-IR合成训练数据集,我们研究了多语言密集检索模型的能力,并在三个检索基准上对其进行了全面评估,发现SWIM-IR可以以较低成本替代昂贵的人工标记检索训练数据。
Nov, 2023
这项研究提出了一种新颖的模块化密集检索模型ColBERT-XM,它通过学习单个高资源语言的丰富数据,并能够有效地零-shot转换到各种语言,从而消除了对特定语言的标记数据的需求。通过展示在零-shot场景中的娴熟表现,ColBERT-XM标志着向更可持续和包容的检索系统的转变,实现了多种语言的有效信息获取。我们公开发布我们的代码和模型供社区使用。
Feb, 2024
PLAID SHIRTTT是ColBERT的扩展版本,使用预训练语言模型实现了高效的排名。通过多阶段的增量索引和层次分片,解决了PLAID在流式场景下性能下降的问题,并在不同规模和多语言环境下进行了有效性验证。
May, 2024
本研究解决了多语言信息检索中模型效率与效果之间的矛盾,提出了Jina-ColBERT-v2模型,通过改进ColBERT架构和训练流程,以适应异构多语言数据。研究发现,该模型在多个检索任务中表现优异,同时存储需求较之前模型降低了50%。
Aug, 2024
本研究解决了现有多向量密集模型在信息检索中的效率和多语言支持不足的问题。通过引入Matryoshka表示损失和新的训练框架,提出了一种优化的架构,使得模型在减少嵌入维度的同时能有效维持检索性能。本研究的最重要发现是,新的模型实现了长上下文窗口和多语言检索的强大性能,存储需求降低了50%。