KDSTM:带有知识蒸馏的神经半监督主题建模
本文提出了一种知识蒸馏框架,以压缩具有大内存占用的上下文化主题模型,而不会在主题质量上造成损失,并在两个公开数据集上进行实验以证明其有效性。
Mar, 2023
本文提出了一种基于多任务学习的知识蒸馏方法,用于训练轻量级的预训练模型,该方法适用于不同的教师模型体系结构,并且相较于传统上基于 LSTM 的方法,具有更好的语言表达能力和更快的推理速度。
Nov, 2019
提出一种名为 AS-DFD 的新的两阶段无数据蒸馏方法,用于压缩大型基于 Transformer 的模型(例如 BERT),并且是第一个面向 NLP 任务设计的无数据蒸馏框架,在 Text Classification 数据集上验证了其有效性。
Oct, 2020
利用知识蒸馏技术将小型语法语言模型的知识传递到 LSTM 语言模型,从而使 LSTM 对更大的训练数据开发出更具结构感知性的表示方式。在针对语法的评估中,我们发现,尽管顺序 LSTM 比以前的报告要好得多,但我们提出的技术显著改善了这个基准值,产生了新的最佳成果。我们的发现和分析确认了结构上的偏差的重要性,甚至是在从大量数据中学习的模型中也如此。
Jun, 2019
本文提出了半监督 vMF 神经主题建模(S2vNTM)方法,该方法通过少量种子关键字作为主题输入,利用关键字的模式识别潜在主题,并优化主题的关键字集,旨在克服现有的一些困难,包括难以整合人类知识,需要大量资源来训练模型以及依赖大量文本数据进行预训练,实验表明,S2vNTM 在提供有限关键字的情况下,在多个数据集上的分类准确性均优于现有的半监督主题建模方法,并且至少比基线快一倍。
Jul, 2023
提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD,大幅度降低了一些实践性问题的影响,提升了大规模语言模型的泛化能力,实现了比标准 KD 培训更好的性能表现,能用于低资源平台上的应用。
Nov, 2020
本文提出一种改进机器翻译模型的方法,即将 NN search 前置,并通过最近邻知识蒸馏(NN-KD)训练基本 NMT 模型直接学习 NN 知识,可以更好地解决机器翻译中的过度纠正问题,并在保持训练和解码速度不变的情况下,实现了比 NN-MT 等现有方法更好的结果。
May, 2022
本研究探讨了一种 Knowledge Distillation 的新方法,即从神经网络和词汇知识库中提取语言信息,以提供大规模模型的高效替代方案,并提出了两种基于多个 teacher networks 预测权重的技术以及一种用于词义消歧的方法,并发现使用本文中的词汇预训练方法可在不增加参数的情况下提高自然语言理解任务 (NLU) 的性能,同时在 Plagiarism Detection 方面也有了更好的表现。
Jan, 2023