词嵌入蒸馏:一种编码方法
本文提出了一种新的嵌入蒸馏框架,使词嵌入的维度显著降低但不影响准确性,并介绍了使用多个教师模型训练高效的学生模型的新型蒸馏集成方法。通过实验验证,在七个文本分类数据集上,该方法在大多数情况下均表现出比教师模型更好的性能,对词嵌入的变换进行了深入分析,并提出了使用神经模型进行融合的未来研究方向。
May, 2019
本文介绍了一种基于低秩矩阵分解和知识蒸馏的输入 / 输出嵌入压缩方法,提出的方法简单易实现,具有更高的 BLEU 分数和更低的语言模型困惑度,适用于机器翻译和语言建模。
Oct, 2019
本文介绍了一种将现有的句子嵌入模型扩展到新语言的简便有效方法,训练基于将翻译后的句子映射到与原始句子相同的向量空间位置的思想,相较于其他多语言句子嵌入训练方法,具有扩展现有模型以增加新语言的简易性、保证向量空间所需属性的易操作性和较低的硬件要求等优势。代码已公开,可以用于将句子嵌入模型扩展到 400 多种语言。
Apr, 2020
本文研究了单词在分布式表示中的两种主要方法:低维度深度学习嵌入和高维度分布模型,并将这两种方法相结合,通过学习基于分布式模型向量的嵌入来提高单词相关性判断的性能。
Dec, 2013
本文提出了一种新的语言表示学习的知识蒸馏方法,通过单词关系和层变换关系传递上下文知识,无需限制教师和学生的架构变化,验证了该方法在语言理解任务的各种架构和 DynaBERT 等自适应尺寸剪枝方法的挑战性基准上的有效性。
Sep, 2021
本研究总结了最近的构建定长、密集、分布式单词表示的主要策略,并阐述了这些表示通常被称为单词嵌入,并除了编码出色的句法和语义信息之外,还被证明在许多下游自然语言处理任务中有用的额外特征。
Jan, 2019
本文提出了一个无幻觉的框架,以序列标记为例,该框架非常适用于蒸馏,追求计算效率的蒸馏方法有望从这些大模型获得的知识中获益,并在多个序列标记数据集上展现了新的卓越表现,证明了这个框架在少量数据学习场景下进行大模型蒸馏的有用性。
Feb, 2023
该研究提出了一种两阶段的方法,使用上下文中单词意义的注意力来提取一个单词的多重意义,并将其传递到 skip-gram 模型中,以生成多重意义的嵌入,这比现有技术表现更好,可应用于主题建模。
Apr, 2023
本文主要研究神经网络中的自然语言处理,通过将 BERT 知识蒸馏成单层 BiLSTM 及其同侧对应的句对任务,证明了浅层神经网络仍然可以在不使用架构变化、外部训练数据或其他输入特征的情况下,与 ELMo 相比获得可媲美的结果。
Mar, 2019