使用 Wasserstein 知识蒸馏提高神经主题模型

Mar, 2023

使用 Wasserstein 知识蒸馏提高神经主题模型

Improving Neural Topic Models with Wasserstein Knowledge Distillation

Suman Adhya, Debarshi Kumar Sanyal

TL;DR本文提出了一种知识蒸馏框架，以压缩具有大内存占用的上下文化主题模型，而不会在主题质量上造成损失，并在两个公开数据集上进行实验以证明其有效性。

Abstract

topic modeling is a dominant method for exploring document collections on the web and in digital libraries. Recent approaches to topic modeling use pretrained →

topic modeling contextualized language models knowledge distillation topic coherence neural network compression

发现论文，激发创造

使用知识蒸馏改进神经主题模型

使用知识蒸馏将概率主题模型和预训练转换器的最佳属性结合起来，以提高主题质量和性能。

Oct, 2020

蒸馏 Wasserstein 学习用于词嵌入与主题建模

提出了一种基于 Wasserstein 方法和蒸馏机制的新方法，实现了词嵌入和主题的联合学习，其中重点应用于病人入院记录，通过疾病编码和手术编码学习入院主题，从而在临床意义上的疾病网络构建、死亡预测和手术推荐方面获得了卓越的性能。

Sep, 2018

语言模型压缩中的语言上下文提取

本文提出了一种新的语言表示学习的知识蒸馏方法，通过单词关系和层变换关系传递上下文知识，无需限制教师和学生的架构变化，验证了该方法在语言理解任务的各种架构和 DynaBERT 等自适应尺寸剪枝方法的挑战性基准上的有效性。

Sep, 2021

减小词汇量的俄语语言模型知识蒸馏

该研究论文介绍了知识蒸馏的不同方法，其中包括对词汇表的缩减，以助于通过两种简单而有效的对齐技术，对具有简化词汇表的学生进行知识蒸馏，并证明这些技术可以在保持一定质量的情况下实现 17 倍至 49 倍的压缩。

May, 2022

Wasserstein 对比表示蒸馏

本文提出了一种融合 Wasserstein 距离和对比学习的知识蒸馏方法 WCoRD，可以在压缩模型和跨模态迁移等任务上超越现有的方法。

Dec, 2020

KDSTM：带有知识蒸馏的神经半监督主题建模

本文提出了一种名为知识蒸馏半监督主题模型（KDSTM）的方法，该方法可以利用主题模型的无监督特征提取来完成文本分类任务，而无需预先训练。该方法具有较高的效率和准确性，相对于基于监督的分类模型更具鲁棒性。

Jul, 2023

知識蒸餾中的遺失

深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移，本研究通过实验探究了蒸馏过程对于信息损失的影响，并提出了一种优化配置方法。

Nov, 2023

神经机器翻译知识蒸馏理解与改进探究

本文研究神经机器翻译中知识蒸馏的技术，发现知识来源于教师的 top-1 预测，进一步提出一种名为 TIE-KD 的方法用于增强知识蒸馏，包含了层次排序损失和迭代蒸馏等措施，实验证明 TIE-KD 优于基准模型，具有更高的潜力和泛化性能。

May, 2023

知识蒸馏的视觉语言模型压缩

本文提出 VL distillation，使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型，以提高图像字幕生成和视觉问答任务中的性能。

Apr, 2021

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020