将子词信息融入矩阵分解词向量

May, 2018

Incorporating Subword Information into Matrix Factorization Word Embeddings

Alexandre Salle, Aline Villavicencio

TL;DR本文探讨了将子词信息加入到计数模型中是否能像预测模型一样带来正面效果。我们评估了不同类型的子词 (n-gram 和无监督词素)，结果证实了子词信息对于学习罕见和超出词汇表词汇的表示的重要性。

Abstract

The positive effect of adding subword information to word embeddings has been demonstrated for predictive models. In this paper we investigate whether similar benefits can also be derived from incorporating subwords

subwords word embeddings counting models n-grams unsupervised morphemes

发现论文，激发创造

利用子词信息学习词表示的系统研究

本研究通过对五种语言的三个任务进行大量实验研究，发现在利用子词级别信息进行词表示学习时，不同语言和任务下，分词和组成函数等关键组件的最优配置各异。同时，我们还发现，一些无监督分词方法，如 BPE 和 Morfessor 等，有时能够和甚至超过一些基于监督分词方法的配置。

Apr, 2019

对于真正低资源语言中形态学任务的子词信息的重要性

本研究探讨了在低资源环境下，子词信息对单词表示学习的有用性以及其在细粒度实体类型、形态标注和命名实体识别等三个典型形态学任务中的应用价值，结果表明，子词信息可以普适地提升单词表示，但其效果受语言类型和任务的影响，同时，训练单词嵌入和基于任务的模型所需的数据越充足，子词信息的效果才会更好。

Sep, 2019

使用子词信息丰富单词向量

本文提出一种基于 skip-gram 模型的新方法，其中每个单词被表示为一组字符 n-grams 的加和。该方法快速、可在大型语料库上快速训练模型，同时可以计算未出现在训练数据中的单词的表示。我们在九种不同的语言上评估了我们的单词表示，通过与最近提出的形态单词表示进行比较，我们发现我们的向量在这些任务上达到了最先进的性能。

Jul, 2016

使用子词袋来泛化字嵌入

本文提出了一种基于子词级别的词向量生成模型来解决传统词向量模型无法应对未登录词、破音字等问题，并在英文词汇相似性任务和 23 种语言的词性标注和变形属性的联合预测任务中实现了最优表现。

Sep, 2018

隐含地将形态信息融入到词向量中

本文提出了三种新模型，通过隐性使用形态信息增强单词嵌入，实验结果表明隐性模型优于传统显性模型，表现优于所有现有模型，并能在单词嵌入训练过程中补充语义信息。

Jan, 2017

文本理解中有效的子词分割

通过利用子词增强嵌入式框架，本文介绍了一种学习和合成计算产生的子词级别表示的新方法，经过在英文和汉语测试基准上的各种文本理解任务中的实验测试，发现子词增强嵌入式显着改善了我们在各种文本理解任务上的基线。

Nov, 2018

用于概率神经词嵌入的形态学先验

通过将形态学信息融合到词向量中，构建了一个统一的概率框架，其中词嵌入是一个潜变量，并以形态学信息提供先验分布。此方法改进了内在词相似性评估，也在词性标注下游任务中提高了性能。

Aug, 2016

利用形态和音位子单元表示将词嵌入适应新语言

使用语言学驱动的子词单元：音素、词素和字形，提高低资源语言下的自然语言处理、实体名称识别和机器翻译表现。

Aug, 2018

一种生成型词嵌入模型及其低秩半正定解决方案

提出了一种生成词嵌入模型，可用于更复杂的潜在因素模型，推理基于低秩迹近似和区块回归，具有概率解释性和数据保持特性。

Aug, 2015

现有词嵌入方法的全面实证评估

本文通过对现有单词嵌入方法的特点和分类任务的分析，将单词嵌入方法划分为传统方法和基于神经网络的方法，揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。

Mar, 2023