使用子词袋来泛化字嵌入
提出了两种新的单词向量表示模型,通过神经网络计算大型数据集中单词的连续向量表示,相较于其他神经网络技术在词语相似度任务上提高了准确性且计算效率更高,此外还展示了这些向量在测量语法和语义相似度的测试集上有最先进的性能表现。
Jan, 2013
提出一种扩展Skip-gram模型的方法,它可以高效地学习每个单词类型的多个嵌入,通过联合进行词义辨别和嵌入学习,非参数地估计每个单词类型的很多不同的词义,并通过在一个拥有近10亿标记的语料库上训练一台机器的演示,展示了它的可扩展性。
Apr, 2015
本文提出了一种集成方法,通过将GloVe和word2vec的嵌入方式与语义网络ConceptNet和PPDB的结构化知识相结合,将它们的信息融合成一个具有大型多语言词汇的共同表示,并达到了许多词语相似性评估的最先进性能
Apr, 2016
本文提出一种基于skip-gram模型的新方法,其中每个单词被表示为一组字符n-grams的加和。该方法快速、可在大型语料库上快速训练模型,同时可以计算未出现在训练数据中的单词的表示。我们在九种不同的语言上评估了我们的单词表示,通过与最近提出的形态单词表示进行比较,我们发现我们的向量在这些任务上达到了最先进的性能。
Jul, 2016
本文探讨使用无监督学习的方法,通过单词嵌入在词向量空间内学习语义相似性,以实现对文本分类任务的性能优化。研究发现,使用领域特定的词嵌入可以提高分类性能。
May, 2017
训练单词嵌入与高阶n-gram嵌入同时可以帮助消除上下文信息,从而得到更好的单词嵌入。通过在各种任务上显着优于其他竞争性单词表示模型,我们实证了我们的假设的有效性。
Apr, 2019
提出了一种新模型,通过给类似语境中出现的单词重新分配其权重,模拟了在相似语境中单词之间的语义共享,并将其纳入单词袋文档表示法中,从而在无监督设置下在难度逐渐增加的数据集上获得了最好的微观和宏观F1分数,针对的研究主题是单词嵌入和语义含义。
Jun, 2019
提出了一种概括单词嵌入的方法,称为PBoS模型,该模型基于单词的拼写,同时对子词划分建模和计算子词组合的单词嵌入,并在词汇相似性和词性标注实验中显示出较好的性能,不需要明确的形态学知识。
Oct, 2020
本文关注词嵌入和语言模型在自然语言处理中的重要性,探讨了从稀疏表示到密集嵌入的演变,尤其是在跨语言和个性化应用中的进展。作者提出了多模态嵌入的应用,分析了模型压缩与解释性等高级主题,并强调了未来研究方向,包括可扩展训练技术和非文本模式的稳健基础。该研究为推动嵌入基础语言模型的边界提供了深入的资源。
Nov, 2024