使用紧密耦合的教师将密集表示提炼为排名

Oct, 2020

使用紧密耦合的教师将密集表示提炼为排名

Distilling Dense Representations for Ranking using Tightly-Coupled Teachers

Sheng-Chieh Lin, Jheng-Hong Yang, Jimmy Lin

TL;DR通过知识蒸馏，将 ColBERT 中用于计算相关性分数的 MaxSim 操作的知识提取出来，应用于密集表示的排名方法中，从而提高了查询延迟并减少了 ColBERT 的存储开销。同时，将我们的密集表示与从文档扩展中导出的稀疏表示相结合，可以接近标准的基于 BERT 的交叉编码排序器的效果。

Abstract

We present an approach to ranking with dense representations that applies knowledge distillation to improve the recently proposed late-interaction →

knowledge distillation colbert dense representations ann search query latency

发现论文，激发创造

利用跨架构知识蒸馏改进高效神经排序模型

该研究探讨了如何提高基于 BERT 和非 BERT 的不同命令匹配体系结构的目标性能，提出了一种跨体系结构教授的知识蒸馏过程，使用 Margin-MSE 损失相对输出分数进行适应，从而显著提高再排序效果。同时，研究发布了教师 - 分数培训文件的软件包，以造福社区。

Oct, 2020

句向量排序模型的极端压缩：在边缘设备上实现更快的推理、更长的电池续航和更少的存储

本篇研究提出了在两种不同类型的 ranker 模型上扩展句子转换蒸馏过程的两种方法，包括生成最优尺寸的词汇表和在蒸馏之前对教师的嵌入维数进行降维。结果表明，采用这些扩展技术的学生模型具有极大的压缩程度，而且在测试数据集上表现出高度的有效性和能用性。

Jun, 2022

BERT 排名器在蒸馏下的理解

本文研究了如何通过蒸馏将 BERT 中的搜索知识传递到更小的排名器中，实验表明，使用适当的蒸馏过程可以实现最高 9 倍速度提升，同时保持最先进的性能。

Jul, 2020

重复使用教师分类器的知识蒸馏

使用简单的知识蒸馏技术可以显著缩小教师模型与学生模型之间的性能差距，通过使用预先训练的教师模型的判别分类器进行学生推断，并通过特征对齐训练学生编码器来实现与教师相同的性能。添加新的投影仪使学生编码器与教师分类器匹配，从而将这种技术应用于各种教师和学生架构下达到良好的压缩率与状态的最佳结果。

Mar, 2022

从内部表示进行知识蒸馏

本文提出了通过知识蒸馏从内部表示来压缩 BERT 这样的大型模型，并阐述了两种从内部表示中提取知识的方法和不同算法的实验。结论是，与仅使用软标签蒸馏相比，从内部表示来蒸馏是更强大的方法。

Oct, 2019

稀疏蒸馏：使用更大的学生模型加速文本分类

将最先进的 Transformer 模型转化为轻量级的 Student 模型是减少推理时间中计算成本的一种有效方法。本文进一步将 Teacher 模型提炼出更大、稀疏的 Student 模型，并在单句文本分类任务中表明，这些 Student 模型平均保留了 97％的 RoBERTa-Large Teacher 性能，同时在 GPU 和 CPU 上推理时间获得高达 600 倍的加速，同时对于句子对分类任务和域泛化设置也具有帮助。

Oct, 2021

简洁 TinyBERT：文档检索的知识蒸馏

该研究比较了两种知识蒸馏模型在文档排序任务中的有效性并对 TinyBERT 模型进行了两种简化，结果显示出这些简化不仅能够提升 TinyBERT 的性能，而且还可以在提供 15 倍速度提升的同时显著优于 BERT-Base。

Sep, 2020

对中间表示进行对比蒸馏，用于语言模型压缩

本研究提出了一种基于中间层对比蒸馏的知识蒸馏框架（CoDIR），通过区分正样本和大量负样本，使学生模型通过中间层更好地提取和压缩教师模型的知识，该方法在 GLUE 基准测试中表现优异。

Sep, 2020

基于 n-best 重排序的精准知识蒸馏

在 WMT21 德英翻译任务上，我们提出了一种通过 n-best 重新排序来扩展顺序级知识蒸馏的方法，以考虑不仅仅是第一顶假设，而且还要考虑教师模型的前 n 个顶假设，利用一组多样化的模型，包括公开可用的大型预训练模型，为训练学生模型提供更准确的伪标签，使得学生模型的参数数量要少几个数量级，但是可以获得与 Tran 等人使用 47 亿个参数的大型转换模型相当的准确性。

May, 2023

用未标记的转移数据将 BERT 蒸馏为简单的神经网络

该研究论文针对知识蒸馏在自然语言处理中预训练模型所遇到的问题，探讨利用领域内未标记的数据、有限的已标记数据和基于简单 RNN 模型的硬蒸馏方法解决师生模型间性能差异的问题。实验结果表明，使用软蒸馏和利用教师模型的中间表示，学生模型的性能可以进一步提高，而在低资源环境下，学生模型在保证与教师模型性能基本持平的情况下，可实现最多 26 倍的压缩比，针对多语言环境的扩展实验结果更是惊人。

Oct, 2019