关于 ColBERT 的词元剪枝研究

Dec, 2021

A Study on Token Pruning for ColBERT

Carlos Lassance, Maroua Maachou, Joohee Park, Stéphane Clinchant

TL;DR本文研究了 ColBERT 模型的不同设计，通过采用 token pruning 技术对 ColBERT 模型进行优化，实现了在不降低性能的情况下减小索引大小。通过在 MS MARCO 文档上的实验，揭示了实现这种机制面临的各种挑战。

Abstract

The colbert model has recently been proposed as an effective bert based ranker. By adopting a late interaction mechanism, a major advantag

colbert bert ranker index size token pruning

发现论文，激发创造

聚焦核心：通过裁剪令牌压缩实现高效的文档分类注意力

通过结合令牌修剪和令牌合并的策略，我们在基于 Transformer 模型的基础上提出了改进的方法，既提高了模型的性能，又降低了计算需求。在各种数据集上的实验证明，与基准模型相比，我们的方法在准确度上提升了 5% p，F1 得分提升了 5.6% p。此外，我们成功减少了内存成本到 0.61 倍，并实现了 1.64 倍的加速。

Jun, 2024

重访目标检测和实例分割的 Token 剪枝

本研究探究了基于图像分类方法的 Token 剪枝技术在目标检测和实例分割中的应用，提出了四种见解，包括：应在特征映射中保留 Token、可重激活过去剪枝的 Token 以提高模型性能、动态剪枝率比固定剪枝率更好、简单的 2 层 MLP 能有效地剪枝 Token。实验结果表明，本方法能显著加速推理速度，且与不剪枝的结果相比，性能损失仅在 0.3 mAP 以内。

Jun, 2023

约束感知和排名蒸馏的令牌剪枝用于高效的 Transformer 推理

本文提出了一种基于约束感知和排名提取的令牌剪枝方法 ToP，可在保持准确性的同时提高模型的在线推理速度。在 GLUE 基准和 SQuAD 任务上的广泛实验表明，ToP 优于现有的令牌剪枝和模型压缩方法，并提供高达 7.4 倍的实际延迟加速。

Jun, 2023

ColBERT: 通过 BERT 的上下文化后交互实现高效有效的段落搜索

ColBERT 是一种基于深度语言模型的信息检索方法，通过实现一种廉价而又强大的互动机制，将查询和文档分别进行编码，然后为它们建立细粒度相似性，从而利用深度语言模型的表现力，同时加快查询处理。

Apr, 2020

高效 BERT 预训练的 Token Dropping

提出了一种基于 token dropping 方法的简单有效的预训练加速技术，可以在不影响下游任务性能的前提下，将 BERT 的预训练成本减少 25%。该方法通过在中间层开始丢弃不重要的 token，使模型更专注于重要的 token，然后让最后一层重新生成完整的序列，这可以通过利用 Masked Language Modeling 的已建成的 loss 函数来实现，计算代价几乎为零。

Mar, 2022

Zero-TPrune：基于预训练 Transformer 的注意力图优化进行零样本 Token 裁剪

本文提出了首个零 - shot 的方法 Zero-TPrune，通过使用预先训练的 Transformer 模型的 attention 图来计算 token 的重要性和相似性，在保持高精度的前提下，大幅减少了模型的计算复杂度和推理时间。

May, 2023

基于 BERT 的问答模型的结构化剪枝

本文针对自然语言处理中使用的 BERT 和 RoBERTa 模型进行了压缩，使用结构化剪枝和专门化蒸馏相结合的方法，实现了在保持高精度的同时速度大幅提升。

Oct, 2019

ColBERTv2: 通过轻量的后期交互实现有效和高效的检索

本研究介绍了 ColBERTv2，结合积极的残差压缩机制和去噪监督策略，以提高对最晚交互的质量和占用空间的同时评估了广泛的基准。

Dec, 2021

多语言 BERT 中注意力头的可剪枝性

通过对 mBERT 进行修剪，我们 quantifying 它的鲁棒性和逐层理解其重要性，结果表明缩减其注意力容量不会影响其鲁棒性。而在跨语言任务 XNLI 中，修剪会导致准确性下降，这表明跨语言转移的鲁棒性较低。此外，编码器层的重要性受语言族和预训练语料大小的影响。

Sep, 2021

基于分块的自注意力机制实现长文本理解

BlockBERT 为一个高效的 BERT 模型，引入了稀疏块结构，以更好的建模长距离依赖关系，在语言模型预训练和基准问答数据集上进行了实验。与 RoBERTa 模型相比，BlockBERT 可以节省大约 27.8% 的推理时间，并具有可比甚至更好的预测准确性。

Nov, 2019