PLAID 的可重复性研究

SIGIRApr, 2024

A Reproducibility Study of PLAID

Sean MacAvaney, Nicola Tonellotto

TL;DRPLAID 算法与重新排名方法在检索引擎的效率和效果之间存在竞争性权衡，本研究强调在评估检索引擎效率时，需精心选择相关的基线方法。

Abstract

The plaid (Performance-optimized Late Interaction Driver) algorithm for colbertv2 uses clustered term representations to retrieve and progressively prune documents for final (exact) document scoring. In this pape

plaid colbertv2 re-ranking lexical system efficiency-effectiveness trade-offs

发现论文，激发创造

PLAID: 面向后期交互检索的高效引擎

本研究通过引入性能优化的虚拟中心点交互机制，构建一个名为 PLAID 的优化 late interaction 模型引擎，极大地加速 late interaction 搜索延迟，同时保持准确度。通过在 GPU 和 CPU 上的测试表明，该引擎在大规模情况下甚至可以实现毫秒级的搜索延迟。

May, 2022

大规模流式密集检索的格子衬衫

PLAID SHIRTTT 是 ColBERT 的扩展版本，使用预训练语言模型实现了高效的排名。通过多阶段的增量索引和层次分片，解决了 PLAID 在流式场景下性能下降的问题，并在不同规模和多语言环境下进行了有效性验证。

May, 2024

ColBERTv2: 通过轻量的后期交互实现有效和高效的检索

本研究介绍了 ColBERTv2，结合积极的残差压缩机制和去噪监督策略，以提高对最晚交互的质量和占用空间的同时评估了广泛的基准。

Dec, 2021

使用紧密耦合的教师将密集表示提炼为排名

通过知识蒸馏，将 ColBERT 中用于计算相关性分数的 MaxSim 操作的知识提取出来，应用于密集表示的排名方法中，从而提高了查询延迟并减少了 ColBERT 的存储开销。同时，将我们的密集表示与从文档扩展中导出的稀疏表示相结合，可以接近标准的基于 BERT 的交叉编码排序器的效果。

Oct, 2020

ColBERT: 通过 BERT 的上下文化后交互实现高效有效的段落搜索

ColBERT 是一种基于深度语言模型的信息检索方法，通过实现一种廉价而又强大的互动机制，将查询和文档分别进行编码，然后为它们建立细粒度相似性，从而利用深度语言模型的表现力，同时加快查询处理。

Apr, 2020

SPLADE: 用于第一阶段排序的稀疏词汇和扩展模型

本文介绍了基于显式稀疏正则化和对术语权重的对数饱和效应的首位排序器，具有高度稀疏的表示，与最先进的密集和稀疏方法相比取得了有竞争力的结果，并探讨了效率和效果之间的平衡。

Jul, 2021

关于 ColBERT 的词元剪枝研究

本文研究了 ColBERT 模型的不同设计，通过采用 token pruning 技术对 ColBERT 模型进行优化，实现了在不降低性能的情况下减小索引大小。通过在 MS MARCO 文档上的实验，揭示了实现这种机制面临的各种挑战。

Dec, 2021

信息检索的稀疏词法和扩展模型 SPLADE v2

本文通过对 SPLADE 模型的改进，在效率和效果上都有了提升，其中包括修改 pooling 机制、基于文档扩展的模型、引入蒸馏训练，最终取得了在 BEIR 测试上最新的最优结果。

Sep, 2021

CURATRON：大型语言模型鲁棒对齐的完备偏好数据

通过偏好学习与重新校准数值来解决大型语言模型与人类价值观对齐的挑战，特别关注在偏好数据集中处理不完整和损坏数据的问题，并提出了一种鲁棒且完全重新校准数据集数值的新方法，采用保证多项式时间的排名算法，主要针对经典的 Bradley-Terry-Luce 模型及其某些推广模型，通过实验证实了算法在处理一般和大型语言模型偏好数据集中的对抗噪声和未观察比较方面的鲁棒性。

Mar, 2024

面向大规模检索的词库增强密集检索器 (LED)

本研究提出一种基于知识蒸馏的方法，将富有知识的词典嵌入模型对齐到密集检索模型中，从而在第一阶段检索中取得稳定且显著的提高。在三组公开数据集上的实验证明了该模型的有效性，并且与标准排名器蒸馏相结合可以进一步提高检索效果。

Aug, 2022