Mar, 2023
使用 Wasserstein 知识蒸馏提高神经主题模型
Improving Neural Topic Models with Wasserstein Knowledge Distillation
Suman Adhya, Debarshi Kumar Sanyal
TL;DR本文提出了一种知识蒸馏框架,以压缩具有大内存占用的上下文化主题模型,而不会在主题质量上造成损失,并在两个公开数据集上进行实验以证明其有效性。
Abstract
topic modeling is a dominant method for exploring document collections on the
web and in digital libraries. Recent approaches to topic modeling use
pretrained →
topic modelingcontextualized language modelsknowledge distillationtopic coherenceneural network compression
发现论文,激发创造
蒸馏 Wasserstein 学习用于词嵌入与主题建模
提出了一种基于 Wasserstein 方法和蒸馏机制的新方法,实现了词嵌入和主题的联合学习,其中重点应用于病人入院记录,通过疾病编码和手术编码学习入院主题,从而在临床意义上的疾病网络构建、死亡预测和手术推荐方面获得了卓越的性能。
Sep, 2018
语言模型压缩中的语言上下文提取
本文提出了一种新的语言表示学习的知识蒸馏方法,通过单词关系和层变换关系传递上下文知识,无需限制教师和学生的架构变化,验证了该方法在语言理解任务的各种架构和 DynaBERT 等自适应尺寸剪枝方法的挑战性基准上的有效性。
Sep, 2021
减小词汇量的俄语语言模型知识蒸馏
该研究论文介绍了知识蒸馏的不同方法,其中包括对词汇表的缩减,以助于通过两种简单而有效的对齐技术,对具有简化词汇表的学生进行知识蒸馏,并证明这些技术可以在保持一定质量的情况下实现 17 倍至 49 倍的压缩。
May, 2022
KDSTM:带有知识蒸馏的神经半监督主题建模
本文提出了一种名为知识蒸馏半监督主题模型(KDSTM)的方法,该方法可以利用主题模型的无监督特征提取来完成文本分类任务,而无需预先训练。该方法具有较高的效率和准确性,相对于基于监督的分类模型更具鲁棒性。
Jul, 2023
神经机器翻译知识蒸馏理解与改进探究
本文研究神经机器翻译中知识蒸馏的技术,发现知识来源于教师的 top-1 预测,进一步提出一种名为 TIE-KD 的方法用于增强知识蒸馏,包含了层次排序损失和迭代蒸馏等措施,实验证明 TIE-KD 优于基准模型,具有更高的潜力和泛化性能。
May, 2023
知识蒸馏的视觉语言模型压缩
本文提出 VL distillation,使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型,以提高图像字幕生成和视觉问答任务中的性能。
Apr, 2021