本文通过对现有单词嵌入方法的特点和分类任务的分析,将单词嵌入方法划分为传统方法和基于神经网络的方法,揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。
Mar, 2023
本文介绍了一种新型的深层上下文词表示方法,既能够建模单词用法的复杂特征 (如句法和语义),又能够建模这些用法在语言上下文中的变化 (即建模多义性),这些表示可以轻松地添加到现有模型中,并且可以显著提高 NLP 问题的性能。
Feb, 2018
本文首次观察了神经机器翻译中不断向量表示的潜在弱点,基于此提出了利用非线性词袋表示法和类型化符号来提高对源语言和目标语言的区分度,从而显著提高了神经机器翻译系统的翻译质量。
Jul, 2016
本文提出利用深度 LSTM 编码器来对词向量进行上下文增强的方法,并证明了这种方法在自然语言处理任务上,如情感分析、问题分类和问题回答等方面的有效性。
Aug, 2017
该综述评估了现有的上下文嵌入模型,跨语言多语预训练,上下文嵌入在下游任务中的应用,模型压缩和分析。
Mar, 2020
论文研究了使用神经网络和预训练语言模型来提取文件中问题的答案,通过提供丰富的上下文表示并允许模型在上下文相关和上下文无关的单词表示之间进行选择,可以获得比现有技术更好的性能。
Dec, 2017
本文提出一种利用命题逻辑表示单词语义的词嵌入方法,使用 Tsetlin 机器自编码器进行学习,探讨了其在自然语言处理领域中的重要性,对比了其他模型,研究表明在多项分类任务中表现良好,且具有一定的可解释性。
Jan, 2023
本文研究了使用银行特定语料库构建的词嵌入,相对于使用文本语料库构建的 Word2Vec 或 BERT 嵌入,银行特定语料库的嵌入在银行特定语义和词相关性的捕捉方面表现更好,因此可能成为银行业特定 NLP 任务的一种有效数据源。
Jun, 2023
我们提出了一种基于标准神经网络架构的简单,高效的令牌嵌入模型,并通过大量未注释的文本学习了令牌嵌入,评估它们作为基于少量注释的数据训练的词性标注器和依存分析器的特征,发现词嵌入在各种上下文窗口和训练集大小下都能一致优于基准预测模型。
Jun, 2017
本研究提出了一种基于表面形式和上下文信息两种方式的词嵌入方法,取得了在 Definitional Nonce 和 Contextual Rare Words 数据集上的最好效果,可以帮助处理 NLP 中的生词。
Nov, 2018