使用知识蒸馏改进神经主题模型

EMNLPOct, 2020

Improving Neural Topic Models using Knowledge Distillation

Alexander Hoyle, Pranav Goel, Philip Resnik

TL;DR使用知识蒸馏将概率主题模型和预训练转换器的最佳属性结合起来，以提高主题质量和性能。

Abstract

topic models are often used to identify human-interpretable topics to help make sense of large document collections. We use knowledge distillation to combine the best attributes of probabilistic →

topic models knowledge distillation neural topic model topic quality performance

发现论文，激发创造

使用 Wasserstein 知识蒸馏提高神经主题模型

本文提出了一种知识蒸馏框架，以压缩具有大内存占用的上下文化主题模型，而不会在主题质量上造成损失，并在两个公开数据集上进行实验以证明其有效性。

Mar, 2023

KDSTM：带有知识蒸馏的神经半监督主题建模

本文提出了一种名为知识蒸馏半监督主题模型（KDSTM）的方法，该方法可以利用主题模型的无监督特征提取来完成文本分类任务，而无需预先训练。该方法具有较高的效率和准确性，相对于基于监督的分类模型更具鲁棒性。

Jul, 2023

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员 - 评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在 GLUE 数据集上优于常规基线模型。

Feb, 2023

神经机器翻译知识蒸馏理解与改进探究

本文研究神经机器翻译中知识蒸馏的技术，发现知识来源于教师的 top-1 预测，进一步提出一种名为 TIE-KD 的方法用于增强知识蒸馏，包含了层次排序损失和迭代蒸馏等措施，实验证明 TIE-KD 优于基准模型，具有更高的潜力和泛化性能。

May, 2023

基于 Transformer 的语言模型的知识蒸馏再探

针对 transformer-based pre-trained language models 在实际应用中过大且延迟高的问题，该研究提出一种基于 knowledge distillation 的压缩方法，并通过系统实验对比分析知识类型、匹配策略、模型大小等多方面，最终提供一套最佳实践指南。

Jun, 2022

通过知识蒸馏提高用于自然语言理解的多任务深度神经网络

本文使用知识蒸馏方法对多任务深度神经网络进行优化，提供了解决集成大型神经网络问题的方法，并在 GLUE 基准测试中取得了显著的成果。

Apr, 2019

MKD：一种预训练语言模型的多任务知识蒸馏方法

本文提出了一种基于多任务学习的知识蒸馏方法，用于训练轻量级的预训练模型，该方法适用于不同的教师模型体系结构，并且相较于传统上基于 LSTM 的方法，具有更好的语言表达能力和更快的推理速度。

Nov, 2019

序列级知识蒸馏

本文介绍了在神经机器翻译中应用知识蒸馏技术，包括传统的单词级别预测和两种新的序列级知识蒸馏模型。在现有最优模型的基础上，我们的学生模型在运行速度增加的同时，表现损失不大。此外，通过权重剪枝，还极大地减小了模型的参数数量。

Jun, 2016

知识蒸馏提高深度神经网络的可解释性

使用知识蒸馏技术将深度神经网络转换成决策树，以同时实现较好的性能和可解释性，并比基准决策树模型获得显著更高的精度，在 TensorFlow 平台上实现对大数据集的可扩展性。

Dec, 2018

减小词汇量的俄语语言模型知识蒸馏

该研究论文介绍了知识蒸馏的不同方法，其中包括对词汇表的缩减，以助于通过两种简单而有效的对齐技术，对具有简化词汇表的学生进行知识蒸馏，并证明这些技术可以在保持一定质量的情况下实现 17 倍至 49 倍的压缩。

May, 2022