我们提出了一种基于标准神经网络架构的简单,高效的令牌嵌入模型,并通过大量未注释的文本学习了令牌嵌入,评估它们作为基于少量注释的数据训练的词性标注器和依存分析器的特征,发现词嵌入在各种上下文窗口和训练集大小下都能一致优于基准预测模型。
Jun, 2017
本文提出了一种利用加权词向量嵌入学习无标注句子表示的无监督方法,通过TF-IDF变换提供的Shannon词熵拟合词向量的权重,选择不同的超参得出短期训练、在线推理的句子表示,经过与STS系统的对比表明,该方法在语义文本相似度模型中的表现已达到最优。
Oct, 2017
本论文总结了词嵌入表示领域的广泛研究,概括了 16 种内在方法和 12 种外在方法,提出了一种方法分类并讨论了一些关键挑战。
Jan, 2018
介绍了一种通过神经网络自行学习嵌入向量的方法——动态元嵌入,该方法在同一模型类别下,在各种任务中实现了最先进的性能,并展示了该技术如何在NLP系统中应用嵌入向量。
Apr, 2018
本文通过详细的实证研究探讨了神经网络模型架构(如:LSTM、CNN或自我注意力)对端到端NLP任务准确性和语言表示质量影响的权衡,研究结果表明预训练的双向语言模型可以学习到关于语言结构比以往认为的更多,无论采用何种架构,都是学习到高质量的上下文表示。
Aug, 2018
训练单词嵌入与高阶n-gram嵌入同时可以帮助消除上下文信息,从而得到更好的单词嵌入。通过在各种任务上显着优于其他竞争性单词表示模型,我们实证了我们的假设的有效性。
Apr, 2019
利用语境嵌入表示的词义表征,基于WordNet全覆盖创造了意义级别嵌入,并不依赖于显式知识或任务特定建模,从而实现了前所未有的词语消歧性能提升。
Jun, 2019
本文提出了一种名为BERTRAM的基于BERT的结构,用于为罕见词建立高质量的嵌入表示,从而提高深层语言模型在罕见词和中频词上的表现。实验表明,在罕见词探查任务和三种下游任务上,与BERT相结合可以显著提高罕见词和中频词的表示。
Oct, 2019
本研究提出基于预训练语言模型的动态情境词向量,能够以语言和非语言环境为依据来表征单词的含义变化,并在四个英文数据集上做出定性和定量分析,以彰显其应用潜力。
Oct, 2020
比较和评估了几个上下文和非上下文模型在土耳其语的内在和外在评估设置中的性能,通过分析模型的句法和语义能力进行了细粒度比较,并建立了土耳其词嵌入库作为土耳其自然语言处理领域的重要资源。
May, 2024