词嵌入蒸馏:一种编码方法
本研究主要通过对情感极性和同义词/反义词关系的评估,比较不同嵌入方法之间的质量差异,并探讨嵌入空间中维数的多少以及每个维度的分辨率对NLP任务的影响。结果表明嵌入方法在不考虑句子结构的情况下可以捕捉到非常微妙的语义,而确定嵌入方法的质量和特性对最终结果具有重要影响。
Jan, 2013
本文分析词嵌入训练的三个关键组成部分,并将现有的基于神经网络的词嵌入算法系统化,并在相同语料库下进行比较评估。作者提供了几条简单指南以训练词嵌入。作者发现,选择合适领域的语料库比语料库大小更为重要。在此基础上使用更大的语料库能得到更好的结果。本文还展示了更快的模型在大多数情况下提供足够的性能,而更复杂的模型可以在培训语料库足够大的情况下使用,并且,对于迭代停止指标,应该依赖于所需任务的开发集,而不是训练嵌入的验证损失。
Jul, 2015
该论文的第一部分介绍了词嵌入的必要性、创建方法、有趣的属性及其与图像嵌入的比较;第二部分实现了一个基于预训练词向量的卷积神经网络,用于几个句子级分类任务,取得了与最先进技术相当或领先的结果,说明与随机的词向量相比,预训练的词向量具有强大的能力。
Oct, 2016
我们提出了一种基于标准神经网络架构的简单,高效的令牌嵌入模型,并通过大量未注释的文本学习了令牌嵌入,评估它们作为基于少量注释的数据训练的词性标注器和依存分析器的特征,发现词嵌入在各种上下文窗口和训练集大小下都能一致优于基准预测模型。
Jun, 2017
介绍了一种通过神经网络自行学习嵌入向量的方法——动态元嵌入,该方法在同一模型类别下,在各种任务中实现了最先进的性能,并展示了该技术如何在NLP系统中应用嵌入向量。
Apr, 2018
利用语境嵌入表示的词义表征,基于WordNet全覆盖创造了意义级别嵌入,并不依赖于显式知识或任务特定建模,从而实现了前所未有的词语消歧性能提升。
Jun, 2019
本文介绍了一种基于低秩矩阵分解和知识蒸馏的输入/输出嵌入压缩方法,提出的方法简单易实现,具有更高的BLEU分数和更低的语言模型困惑度,适用于机器翻译和语言建模。
Oct, 2019
本研究提出使用基于CBOW的训练方法进行文本嵌入的知识蒸馏,可以有效地提高自然语言处理应用程序的计算效率,同时优于从头开始训练的静态嵌入和以前提出的方法提炼的嵌入。此外,该方法还可以通过标准词汇评估任务公平比较上下文和静态嵌入。
Jun, 2021
本文提出了一种新的语言表示学习的知识蒸馏方法,通过单词关系和层变换关系传递上下文知识,无需限制教师和学生的架构变化,验证了该方法在语言理解任务的各种架构和DynaBERT等自适应尺寸剪枝方法的挑战性基准上的有效性。
Sep, 2021
本研究旨在探讨如何从预训练的语言模型中提取出表示两个词之间关系的向量,并通过Fine-tuning使类似关系的词对应的向量相似,实验结果表明,即使在没有任务特定的Fine-tuning的情况下,所得到的关系嵌入在类比和关系分类基准测试中都具有很高的竞争力。
Sep, 2021