ColBERT: 通过BERT的上下文化后交互实现高效有效的段落搜索

Apr, 2020

ColBERT: 通过BERT的上下文化后交互实现高效有效的段落搜索

ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT

Omar Khattab, Matei Zaharia

TL;DRColBERT是一种基于深度语言模型的信息检索方法，通过实现一种廉价而又强大的互动机制，将查询和文档分别进行编码，然后为它们建立细粒度相似性，从而利用深度语言模型的表现力，同时加快查询处理。

Abstract

Recent progress in natural language understanding (NLU) is driving fast-paced advances in information retrieval (IR), largely owed to fine-tuning

发现论文，激发创造

BERT排名行为解析

本文研究了预先训练的BERT在排名任务中的表现和行为，探索了在两种排名任务中优化BERT的几种不同方法，并实验证明了BERT在问题回答焦点的段落排名任务中的强有效性，以及BERT作为强交互式序列到序列匹配模型的事实。

Apr, 2019

使用紧密耦合的教师将密集表示提炼为排名

通过知识蒸馏，将ColBERT中用于计算相关性分数的MaxSim操作的知识提取出来，应用于密集表示的排名方法中，从而提高了查询延迟并减少了ColBERT的存储开销。同时，将我们的密集表示与从文档扩展中导出的稀疏表示相结合，可以接近标准的基于BERT的交叉编码排序器的效果。

Oct, 2020

ColBERTv2: 通过轻量的后期交互实现有效和高效的检索

本研究介绍了ColBERTv2，结合积极的残差压缩机制和去噪监督策略，以提高对最晚交互的质量和占用空间的同时评估了广泛的基准。

Dec, 2021

关于 ColBERT 的词元剪枝研究

本文研究了ColBERT模型的不同设计，通过采用token pruning技术对ColBERT模型进行优化，实现了在不降低性能的情况下减小索引大小。通过在MS MARCO文档上的实验，揭示了实现这种机制面临的各种挑战。

Dec, 2021

CODER: 通过上下文文档嵌入重新排序的有效优化框架

通过引入Contextual Document Embedding Reranking (CODER)，可以显著提高基于对比学习的密集检索模型的检索性能，特别是当更多的相关信息可用时，如在TripClick集合中观察到的情况下，可以获得大幅度的改进并取得新的最优结果。

Dec, 2021

引入Neural Bag of Whole-Words with ColBERTer: 使用增强的Reduction进行上下文化的后期交互

本文提出了ColBERTer，这是一个使用上下文化的ColBERT模型与增强的减少方法的神经检索模型。它采用了单向量检索、多向量细化和可选词汇匹配组件，其多向量组件通过学习每个文档中的项的唯一整词表示并学习识别和删除对于有效评分来说不必要的词表示，可以将文档的存储向量数量减少2.5倍。结果表明，ColBERTer可以提高检索结果的可解释性，同时保持检索结果的有效性，并且具有多任务学习的特点。

Mar, 2022

可学习的后期交互的高效文档排序

提出了一种新颖的学习型后交互模型（LITE），通过解决轻量级评分器的手工设计和访问个体文档令牌嵌入的问题来改善查询-文档关联性在信息检索中的性能，并在领域内和零样本重排序任务上优于以前的后交互模型。

Jun, 2024

Jina-ColBERT-v2：通用多语言晚交互检索器

本研究解决了多语言信息检索中模型效率与效果之间的矛盾，提出了Jina-ColBERT-v2模型，通过改进ColBERT架构和训练流程，以适应异构多语言数据。研究发现，该模型在多个检索任务中表现优异，同时存储需求较之前模型降低了50%。

Aug, 2024

Jina-ColBERT-v2：通用多语言晚期交互检索器

本研究解决了现有多向量密集模型在信息检索中的效率和多语言支持不足的问题。通过引入Matryoshka表示损失和新的训练框架，提出了一种优化的架构，使得模型在减少嵌入维度的同时能有效维持检索性能。本研究的最重要发现是，新的模型实现了长上下文窗口和多语言检索的强大性能，存储需求降低了50%。

Aug, 2024

Jina-ColBERT-v2：通用多语言晚期交互检索器

本研究针对传统稠密检索模型在多语言和长上下文窗口检索中的局限性进行了探索。提出的Jina-ColBERT-v2模型采用新架构和训练框架，显著提升了多语言检索任务的表现。该模型的主要发现是能够高效处理长文本，提高检索精度，具备广泛的应用潜力。

Aug, 2024