使用子词袋来泛化字嵌入

Sep, 2018

Generalizing Word Embeddings using Bag of Subwords

Jinman Zhao, Sidharth Mudgal, Yingyu Liang

TL;DR本文提出了一种基于子词级别的词向量生成模型来解决传统词向量模型无法应对未登录词、破音字等问题，并在英文词汇相似性任务和23种语言的词性标注和变形属性的联合预测任务中实现了最优表现。

Abstract

We approach the problem of generalizing pre-trained word embeddings beyond fixed-size vocabularies without using additional contextual information. We propose a subword-level word vector generation model that views words as bags of character $n$-grams. The model is simple, fast to trai

发现论文，激发创造

向量空间中单词表示的高效估计

提出了两种新的单词向量表示模型，通过神经网络计算大型数据集中单词的连续向量表示，相较于其他神经网络技术在词语相似度任务上提高了准确性且计算效率更高，此外还展示了这些向量在测量语法和语义相似度的测试集上有最先进的性能表现。

Jan, 2013

向量空间中多个嵌入每个单词的高效非参数估计

提出一种扩展Skip-gram模型的方法，它可以高效地学习每个单词类型的多个嵌入，通过联合进行词义辨别和嵌入学习，非参数地估计每个单词类型的很多不同的词义，并通过在一个拥有近10亿标记的语料库上训练一台机器的演示，展示了它的可扩展性。

Apr, 2015

一种集成方法生成高质量的词向量嵌入（2016）

本文提出了一种集成方法，通过将GloVe和word2vec的嵌入方式与语义网络ConceptNet和PPDB的结构化知识相结合，将它们的信息融合成一个具有大型多语言词汇的共同表示，并达到了许多词语相似性评估的最先进性能

Apr, 2016

使用子词信息丰富单词向量

本文提出一种基于skip-gram模型的新方法，其中每个单词被表示为一组字符n-grams的加和。该方法快速、可在大型语料库上快速训练模型，同时可以计算未出现在训练数据中的单词的表示。我们在九种不同的语言上评估了我们的单词表示，通过与最近提出的形态单词表示进行比较，我们发现我们的向量在这些任务上达到了最先进的性能。

Jul, 2016

使用通用和特定词嵌入来分类研究的翻译阶段

本文探讨使用无监督学习的方法，通过单词嵌入在词向量空间内学习语义相似性，以实现对文本分类任务的性能优化。研究发现，使用领域特定的词嵌入可以提高分类性能。

May, 2017

通过子词参数重建词向量嵌入

该研究提出了在子词素水平上进行操作以从预先训练的词嵌入中受益的方法，并报告了在词相似性、词类别标注等任务上的有趣结果。

Jul, 2017

通过分离上下文n元信息来改进词向量嵌入

训练单词嵌入与高阶n-gram嵌入同时可以帮助消除上下文信息，从而得到更好的单词嵌入。通过在各种任务上显着优于其他竞争性单词表示模型，我们实证了我们的假设的有效性。

Apr, 2019

上下文传播的术语权重用于文档表示

提出了一种新模型，通过给类似语境中出现的单词重新分配其权重，模拟了在相似语境中单词之间的语义共享，并将其纳入单词袋文档表示法中，从而在无监督设置下在难度逐渐增加的数据集上获得了最好的微观和宏观F1分数，针对的研究主题是单词嵌入和语义含义。

Jun, 2019

PBoS:概率词袋子字形式用于推广词嵌入

提出了一种概括单词嵌入的方法，称为PBoS模型，该模型基于单词的拼写，同时对子词划分建模和计算子词组合的单词嵌入，并在词汇相似性和词性标注实验中显示出较好的性能，不需要明确的形态学知识。

Oct, 2020

从词向量到多模态嵌入：大型语言模型的技术、应用与未来方向

本文关注词嵌入和语言模型在自然语言处理中的重要性，探讨了从稀疏表示到密集嵌入的演变，尤其是在跨语言和个性化应用中的进展。作者提出了多模态嵌入的应用，分析了模型压缩与解释性等高级主题，并强调了未来研究方向，包括可扩展训练技术和非文本模式的稳健基础。该研究为推动嵌入基础语言模型的边界提供了深入的资源。

Nov, 2024