PROD: 稠密检索的渐进式蒸馏

WWWSep, 2022

PROD: Progressive Distillation for Dense Retrieval

Zhenghao Lin, Yeyun Gong, Xiao Liu, Hang Zhang, Chen Lin...

TL;DRPROD 是一种高效的知识蒸馏方法，包括教师渐进式蒸馏和数据渐进式蒸馏，可用于稠密检索，实验结果表明，PROD 在知识蒸馏方法中达到了最佳性能。

Abstract

knowledge distillation is an effective way to transfer knowledge from a strong teacher to an efficient student model. Ideally, we expect the better the teacher is, the better the student. However, this expectatio

knowledge distillation progressive distillation dense retrieval teacher model student model

发现论文，激发创造

Pro-KD：跟随老师的足迹进行渐进式蒸馏

本文介绍了一种名为 Progressive Knowledge Distillation 的技术，通过模仿教师模型的训练轨迹，改善了知识蒸馏中的 “容量差距问题”（capacity-gap problem）和 “检查点搜索问题”（checkpoint-search problem），在不同的任务（如图像分类、自然语言理解等）中，与最先进的技术相比，实验结果始终保持更好的表现。

Oct, 2021

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020

关系知识蒸馏

该论文提出了关系知识蒸馏方法（RKD），用于将数据示例之间的相互关系转移给学生模型，进而提高其在度量学习等任务中的性能，尤其是在标准基准数据集上取得了超越其老师的表现。

Apr, 2019

跟随自己的道路：一种渐进式的知识蒸馏方法

本文提出了一种名为 ProKT 的知识蒸馏方法，通过将教师模型的监督信号投影到学生参数空间中，从而在优化过程中实现了更好的局部最优解，实验结果表明，与其他现有的知识蒸馏方法相比，ProKT 在图像和文本数据集上都展现出了卓越的性能。

Jul, 2021

教育馏析：让学生模型在学校中学习

本文将动态增量学习引入到知识蒸馏中，提出了一种教育蒸馏的蒸馏策略，通过将学生模型从完整的学生模型分割为低级模型，结合设计的教学参考层，逐渐提升学生模型的年级，并从更多的教师模型中进行学习和蒸馏，使得学生模型的性能逐渐从低级到高级逐阶段提高。教育蒸馏策略结合蒸馏算法在公共数据集 CIFAR100、Caltech256 和 Food-101 数据集上比单一蒸馏算法取得了更优的结果。

Nov, 2023

稠密检索蒸馏的课程学习

本研究提出了一种基于课程学习的优化框架 CL-DRD，通过控制先前重排（教师）模型产生的训练数据难度级别来优化稠密检索（学生）模型，在三个公共语段检索数据集上的实验证明了该框架的有效性。

Apr, 2022

近期师生学习研究综述

知识蒸馏是一种将深度神经网络的知识转移到更小更快的神经网络中的方法，近期变体包括教学助理蒸馏、课程蒸馏、遮罩蒸馏和解耦蒸馏等，致力于通过引入额外的组件或改变学习过程来提高知识蒸馏的性能。

Apr, 2023

异构模型的 Top-K 推荐中的蒸馏

本研究提出了一种名为 HetComp 的知识蒸馏框架，用于将异构模型的整体知识转移给一个轻量级模型，以减少资源成本和推理延迟，该框架使用动态知识构建和自适应知识传输提供逐步更难的排序信息，并通过全面实验表明该框架能够显著提高精度和泛化性能。

Mar, 2023

学生大型语言模型是否能和老师一样表现出色？

深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。

Oct, 2023

蒸馏增强的生成式检索

通过蒸馏技术，提出了一种名为 DGR 的可行框架，利用排名模型作为教师角色，通过专门设计的蒸馏 RankNet loss 来优化生成式检索模型，从而提升了当前生成式检索系统的性能。

Feb, 2024