关于 ColBERT 的词元剪枝研究
通过结合令牌修剪和令牌合并的策略,我们在基于 Transformer 模型的基础上提出了改进的方法,既提高了模型的性能,又降低了计算需求。在各种数据集上的实验证明,与基准模型相比,我们的方法在准确度上提升了 5% p,F1 得分提升了 5.6% p。此外,我们成功减少了内存成本到 0.61 倍,并实现了 1.64 倍的加速。
Jun, 2024
本研究探究了基于图像分类方法的 Token 剪枝技术在目标检测和实例分割中的应用,提出了四种见解,包括:应在特征映射中保留 Token、可重激活过去剪枝的 Token 以提高模型性能、动态剪枝率比固定剪枝率更好、简单的 2 层 MLP 能有效地剪枝 Token。实验结果表明,本方法能显著加速推理速度,且与不剪枝的结果相比,性能损失仅在 0.3 mAP 以内。
Jun, 2023
本文提出了一种基于约束感知和排名提取的令牌剪枝方法 ToP,可在保持准确性的同时提高模型的在线推理速度。在 GLUE 基准和 SQuAD 任务上的广泛实验表明,ToP 优于现有的令牌剪枝和模型压缩方法,并提供高达 7.4 倍的实际延迟加速。
Jun, 2023
ColBERT 是一种基于深度语言模型的信息检索方法,通过实现一种廉价而又强大的互动机制,将查询和文档分别进行编码,然后为它们建立细粒度相似性,从而利用深度语言模型的表现力,同时加快查询处理。
Apr, 2020
提出了一种基于 token dropping 方法的简单有效的预训练加速技术,可以在不影响下游任务性能的前提下,将 BERT 的预训练成本减少 25%。该方法通过在中间层开始丢弃不重要的 token,使模型更专注于重要的 token,然后让最后一层重新生成完整的序列,这可以通过利用 Masked Language Modeling 的已建成的 loss 函数来实现,计算代价几乎为零。
Mar, 2022
本文提出了首个零 - shot 的方法 Zero-TPrune,通过使用预先训练的 Transformer 模型的 attention 图来计算 token 的重要性和相似性,在保持高精度的前提下,大幅减少了模型的计算复杂度和推理时间。
May, 2023
本文针对自然语言处理中使用的 BERT 和 RoBERTa 模型进行了压缩,使用结构化剪枝和专门化蒸馏相结合的方法,实现了在保持高精度的同时速度大幅提升。
Oct, 2019
本研究介绍了 ColBERTv2,结合积极的残差压缩机制和去噪监督策略,以提高对最晚交互的质量和占用空间的同时评估了广泛的基准。
Dec, 2021
通过对 mBERT 进行修剪,我们 quantifying 它的鲁棒性和逐层理解其重要性,结果表明缩减其注意力容量不会影响其鲁棒性。而在跨语言任务 XNLI 中,修剪会导致准确性下降,这表明跨语言转移的鲁棒性较低。此外,编码器层的重要性受语言族和预训练语料大小的影响。
Sep, 2021
BlockBERT 为一个高效的 BERT 模型,引入了稀疏块结构,以更好的建模长距离依赖关系,在语言模型预训练和基准问答数据集上进行了实验。与 RoBERTa 模型相比,BlockBERT 可以节省大约 27.8% 的推理时间,并具有可比甚至更好的预测准确性。
Nov, 2019