利用上下文嵌入模型获得更好的静态词嵌入
本文提出一种编码方法,用于从高维词嵌入中提取特定任务的知识,旨在解决在各种资源受限系统中高性能的轻量级神经网络的需求问题。实验结果表明,从笨重的嵌入中提取知识优于使用小型嵌入直接训练神经网络,能保证高准确性的同时大幅减少模型复杂度。
Jun, 2015
我们提出了一种基于标准神经网络架构的简单,高效的令牌嵌入模型,并通过大量未注释的文本学习了令牌嵌入,评估它们作为基于少量注释的数据训练的词性标注器和依存分析器的特征,发现词嵌入在各种上下文窗口和训练集大小下都能一致优于基准预测模型。
Jun, 2017
介绍了一种通过神经网络自行学习嵌入向量的方法——动态元嵌入,该方法在同一模型类别下,在各种任务中实现了最先进的性能,并展示了该技术如何在NLP系统中应用嵌入向量。
Apr, 2018
本文通过详细的实证研究探讨了神经网络模型架构(如:LSTM、CNN或自我注意力)对端到端NLP任务准确性和语言表示质量影响的权衡,研究结果表明预训练的双向语言模型可以学习到关于语言结构比以往认为的更多,无论采用何种架构,都是学习到高质量的上下文表示。
Aug, 2018
本文关注于从多个预训练的监督模型中提取表示,以丰富单词嵌入具有任务和领域特定的知识,实验表明这样的监督嵌入对于低资源情况有所帮助,但对于任务和领域的性质不同的扩展程度不同,而我们公开了我们的代码。
Jun, 2019
通过引入一系列探测任务,对比测试了BERT、ELMo和GPT等语境编码器对于上下文信息的编码能力,发现每种信息类型确实都是以上下文信息的形式编码的,但是不同的编码器在分配特征到哪些标记上、特征分配的细度、特征编码的鲁棒性等方面存在差异。
May, 2020
本研究旨在探究深度上下文嵌入(例如BERT)相对于传统预训练嵌入(例如GloVe)和一个更简单的基准(随机词嵌入)在训练集大小和语言任务的语言特性等方面,性能是否有大幅提升。我们发现,这两种更简单的基准线上也能匹配行业规模的数据中的上下文嵌入,并且通常在基准任务中具有 5-10% 左右的精度,此外,我们还确定了一些数据特性,这些特性针对于特定的任务使得上下文嵌入具有大幅提升的表现:包含复杂结构的语言、具有歧义的词汇使用、及在训练中从未出现过的单词。
May, 2020
本文介绍了一种将静态嵌入和上下文嵌入相结合的方法,通过提取40种语言的静态嵌入并使用VecMap校准来改善多语言表示,与此同时,应用新颖的持续预训练方法来进一步提高XLM-R的表示精度,并在多个复杂语义任务中展现出积极的效果。
Mar, 2022
通过将上下文信息与传统静态嵌入相结合,以及使用预先的同义词知识和加权向量分布来提高词嵌入的效果。
Oct, 2022
比较和评估了几个上下文和非上下文模型在土耳其语的内在和外在评估设置中的性能,通过分析模型的句法和语义能力进行了细粒度比较,并建立了土耳其词嵌入库作为土耳其自然语言处理领域的重要资源。
May, 2024