KDSTM：带有知识蒸馏的神经半监督主题建模

ICLRJul, 2023

KDSTM：带有知识蒸馏的神经半监督主题建模

KDSTM: Neural Semi-supervised Topic Modeling with Knowledge Distillation

Weijie Xu, Xiaoyu Jiang, Jay Desai, Bin Han, Fuqin Yan...

TL;DR本文提出了一种名为知识蒸馏半监督主题模型（KDSTM）的方法，该方法可以利用主题模型的无监督特征提取来完成文本分类任务，而无需预先训练。该方法具有较高的效率和准确性，相对于基于监督的分类模型更具鲁棒性。

Abstract

In text classification tasks, fine tuning pretrained language models like BERT and GPT-3 yields competitive accuracy; however, both methods require pretraining on large text datasets. In contrast, general

text classification pretrained language models topic modeling knowledge distillation semi-supervised topic modeling unsupervised insights extraction

发现论文，激发创造

使用 Wasserstein 知识蒸馏提高神经主题模型

本文提出了一种知识蒸馏框架，以压缩具有大内存占用的上下文化主题模型，而不会在主题质量上造成损失，并在两个公开数据集上进行实验以证明其有效性。

Mar, 2023

使用知识蒸馏改进神经主题模型

使用知识蒸馏将概率主题模型和预训练转换器的最佳属性结合起来，以提高主题质量和性能。

Oct, 2020

MKD：一种预训练语言模型的多任务知识蒸馏方法

本文提出了一种基于多任务学习的知识蒸馏方法，用于训练轻量级的预训练模型，该方法适用于不同的教师模型体系结构，并且相较于传统上基于 LSTM 的方法，具有更好的语言表达能力和更快的推理速度。

Nov, 2019

文本分类的对抗自监督无数据蒸馏

提出一种名为 AS-DFD 的新的两阶段无数据蒸馏方法，用于压缩大型基于 Transformer 的模型（例如 BERT），并且是第一个面向 NLP 任务设计的无数据蒸馏框架，在 Text Classification 数据集上验证了其有效性。

Oct, 2020

非参数知识蒸馏在端到端语音翻译中的解耦

无需转录，用非参数存储库从数据角度提高语音翻译数据效率

Apr, 2023

使用知识蒸馏的可扩展语法感知语言模型

利用知识蒸馏技术将小型语法语言模型的知识传递到 LSTM 语言模型，从而使 LSTM 对更大的训练数据开发出更具结构感知性的表示方式。在针对语法的评估中，我们发现，尽管顺序 LSTM 比以前的报告要好得多，但我们提出的技术显著改善了这个基准值，产生了新的最佳成果。我们的发现和分析确认了结构上的偏差的重要性，甚至是在从大量数据中学习的模型中也如此。

Jun, 2019

S2vNTM: 半监督 vMF 神经主题建模

本文提出了半监督 vMF 神经主题建模（S2vNTM）方法，该方法通过少量种子关键字作为主题输入，利用关键字的模式识别潜在主题，并优化主题的关键字集，旨在克服现有的一些困难，包括难以整合人类知识，需要大量资源来训练模型以及依赖大量文本数据进行预训练，实验表明，S2vNTM 在提供有限关键字的情况下，在多个数据集上的分类准确性均优于现有的半监督主题建模方法，并且至少比基线快一倍。

Jul, 2023

MixKD：大规模语言模型高效蒸馏

提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD，大幅度降低了一些实践性问题的影响，提升了大规模语言模型的泛化能力，实现了比标准 KD 培训更好的性能表现，能用于低资源平台上的应用。

Nov, 2020

神经机器翻译最近邻知识蒸馏

本文提出一种改进机器翻译模型的方法，即将 NN search 前置，并通过最近邻知识蒸馏（NN-KD）训练基本 NMT 模型直接学习 NN 知识，可以更好地解决机器翻译中的过度纠正问题，并在保持训练和解码速度不变的情况下，实现了比 NN-MT 等现有方法更好的结果。

May, 2022

神经语言模型的一致性蒸馏架构

本研究探讨了一种 Knowledge Distillation 的新方法，即从神经网络和词汇知识库中提取语言信息，以提供大规模模型的高效替代方案，并提出了两种基于多个 teacher networks 预测权重的技术以及一种用于词义消歧的方法，并发现使用本文中的词汇预训练方法可在不增加参数的情况下提高自然语言理解任务 (NLU) 的性能，同时在 Plagiarism Detection 方面也有了更好的表现。

Jan, 2023