Adam: 自适应暗示例的密集检索蒸馏

Dec, 2022

Adam: 自适应暗示例的密集检索蒸馏

Adam: Dense Retrieval Distillation with Adaptive Dark Examples

Chang Liu, Chongyang Tao, Xiubo Geng, Tao Shen, Dongyan Zhao...

TL;DR提出了 ADAM 知识蒸馏框架，通过自适应暗示例抽象出更多黑暗知识以进行蒸馏，同时利用基于自我进程的自适应蒸馏策略来集中高质量实例的内容以帮助模型更好地学习，实验表明 ADAM 蒸馏框架有效

Abstract

To improve the performance of the dual-encoder retriever, one effective approach is knowledge distillation from the cross-encoder ranker. Existing works construct the candidate passages following the supervised l

发现论文，激发创造

通过自适应实例标准化进行知识蒸馏

本文提出了一种新的知识蒸馏方法，基于转移来自教师到学生的通道均值和方差等特征统计信息，以及新的适应性实例归一化损失，以提高模型压缩效果。

Mar, 2020

神经网络比人类评分者更具生产力: 活跃混合用于从黑盒模型中进行数据效率知识蒸馏

本研究探讨如何使用知识蒸馏从黑盒模型中训练神经网络进行视觉识别，使用混合和主动学习等方法，从而在节省计算和数据集成本的同时保持高性能。

Mar, 2020

知识蒸馏与自监督相遇

本文介绍了一种新的知识蒸馏方法，使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识，并将其成功地传递到学生网络中，从而实现了在各种基准测试下的表现优异。

Jun, 2020

Pro-KD：跟随老师的足迹进行渐进式蒸馏

本文介绍了一种名为Progressive Knowledge Distillation的技术，通过模仿教师模型的训练轨迹，改善了知识蒸馏中的“容量差距问题”（capacity-gap problem）和“检查点搜索问题”（checkpoint-search problem），在不同的任务（如图像分类、自然语言理解等）中，与最先进的技术相比，实验结果始终保持更好的表现。

Oct, 2021

动态校正知识蒸馏

提出了一种名为DR-KD的简单而有效的知识蒸馏框架，通过在传统训练中动态调整目标来使学生变成自身的教师，并在蒸馏信息时进行错误更正，从而消除了笨重的教师模型的必要性，并在需要分类或对象识别的任何深度神经网络训练中均可使用，能够在不增加额外训练成本的情况下较其他知识蒸馏方法显著提高Tiny ImageNet测试准确性2.65％。

Jan, 2022

重复使用教师分类器的知识蒸馏

使用简单的知识蒸馏技术可以显著缩小教师模型与学生模型之间的性能差距，通过使用预先训练的教师模型的判别分类器进行学生推断，并通过特征对齐训练学生编码器来实现与教师相同的性能。添加新的投影仪使学生编码器与教师分类器匹配，从而将这种技术应用于各种教师和学生架构下达到良好的压缩率与状态的最佳结果。

Mar, 2022

句向量排序模型的极端压缩：在边缘设备上实现更快的推理、更长的电池续航和更少的存储

本篇研究提出了在两种不同类型的ranker模型上扩展句子转换蒸馏过程的两种方法，包括生成最优尺寸的词汇表和在蒸馏之前对教师的嵌入维数进行降维。结果表明，采用这些扩展技术的学生模型具有极大的压缩程度，而且在测试数据集上表现出高度的有效性和能用性。

Jun, 2022

PROD:稠密检索的渐进式蒸馏

PROD是一种高效的知识蒸馏方法，包括教师渐进式蒸馏和数据渐进式蒸馏，可用于稠密检索，实验结果表明，PROD在知识蒸馏方法中达到了最佳性能。

Sep, 2022

通过嵌入对齐的查询编码器蒸馏是提升密集检索器在线效率的强大基准方法

本文中，我们提出了一个简单的基线方法，使用不对称架构来提高Dual Encoder检索器的效率。我们发现即使使用只有两层的BERT-based查询编码器，通过无监督的蒸馏和适当的学生初始化，仍然可以在BEIR基准测试中保持92.5％的DE性能。我们希望我们的研究可以鼓励社区重新评估方法复杂性和性能提升之间的权衡。

Jun, 2023

引导与切换：交替蒸馏用于零样本密集检索

通过迭代学习、互相增强，我们的无监督模型ABEL实现了在零样本情况下的有效段落检索，并展现了对未见过的任务和领域的强适应能力。

Nov, 2023