PBoS:概率词袋子字形式用于推广词嵌入

Oct, 2020

PBoS:概率词袋子字形式用于推广词嵌入

PBoS: Probabilistic Bag-of-Subwords for Generalizing Word Embedding

Zhao Jinman, Shawn Zhong, Xiaomin Zhang, Yingyu Liang

TL;DR提出了一种概括单词嵌入的方法，称为PBoS模型，该模型基于单词的拼写，同时对子词划分建模和计算子词组合的单词嵌入，并在词汇相似性和词性标注实验中显示出较好的性能，不需要明确的形态学知识。

Abstract

We look into the task of \emph{generalizing} word embeddings: given a set of pre-trained word vectors over a finite vocabulary, the goal is to predict embedding vectors for out-of-vocabulary words, \emph{without} extra contextual information. We rely solely on the spellings of words an

发现论文，激发创造

一种集成方法生成高质量的词向量嵌入（2016）

本文提出了一种集成方法，通过将GloVe和word2vec的嵌入方式与语义网络ConceptNet和PPDB的结构化知识相结合，将它们的信息融合成一个具有大型多语言词汇的共同表示，并达到了许多词语相似性评估的最先进性能

Apr, 2016

用于概率神经词嵌入的形态学先验

通过将形态学信息融合到词向量中，构建了一个统一的概率框架，其中词嵌入是一个潜变量，并以形态学信息提供先验分布。此方法改进了内在词相似性评估，也在词性标注下游任务中提高了性能。

Aug, 2016

词嵌入模型的线性集成

本文研究单词嵌入模型的集成式线性方法，使用基于普通最小二乘回归或正交Procrustes问题的迭代方法构造组合模型，并在爱沙尼亚语中进行了实验比较，结果表明使用正交Procrustes将多个单词嵌入模型组合成集成模型可能导致同义词测试中相对于初始模型的平均结果提高7-10％和类比测试提高19-47％。

Apr, 2017

通过子词参数重建词向量嵌入

该研究提出了在子词素水平上进行操作以从预先训练的词嵌入中受益的方法，并报告了在词相似性、词类别标注等任务上的有趣结果。

Jul, 2017

多义词嵌入的概率FastText

提出了一种新的单词嵌入模型Probabilistic FastText，它可以同时捕捉到多个单词意义、子词结构和不确定性信息，使用高斯混合密度表示单词，包括词根和拼写错误等信息，比其他类似模型效果更好。

Jun, 2018

无分割组合$n$-gram嵌入

该研究提出了一种新型的表示学习方法，它无需依赖于词语分割和人工注释资源，能有效处理像中文和日文这样的非分割语言中的嘈杂语料库，方法的主要思想是彻底忽略词语边界，利用组合子n-gram的嵌入来构建原始语料库中所有字符n-gram的表示。

Sep, 2018

使用子词袋来泛化字嵌入

本文提出了一种基于子词级别的词向量生成模型来解决传统词向量模型无法应对未登录词、破音字等问题，并在英文词汇相似性任务和23种语言的词性标注和变形属性的联合预测任务中实现了最优表现。

Sep, 2018

文本理解中有效的子词分割

通过利用子词增强嵌入式框架，本文介绍了一种学习和合成计算产生的子词级别表示的新方法，经过在英文和汉语测试基准上的各种文本理解任务中的实验测试，发现子词增强嵌入式显着改善了我们在各种文本理解任务上的基线。

Nov, 2018

利用子词信息学习词表示的系统研究

本研究通过对五种语言的三个任务进行大量实验研究，发现在利用子词级别信息进行词表示学习时，不同语言和任务下，分词和组成函数等关键组件的最优配置各异。同时，我们还发现，一些无监督分词方法，如BPE和Morfessor等，有时能够和甚至超过一些基于监督分词方法的配置。

Apr, 2019

词汇基础的子词切分

我们提出了三个在标记化和子词分割中的创新。首先，我们建议使用Morfessor的无监督形态分析作为预标记化。其次，我们提出了一种代数方法来获取基于词嵌入空间的子词嵌入。基于此，我们设计了一种使用嵌入的新型子词分割算法，确保该过程考虑了词汇意义。第三，我们引入了一种基于子词二元模型的高效分割算法，可使用词汇感知分割方法进行初始化，以避免在推理时使用Morfessor和大型嵌入表。我们使用两个内在指标评估了所提出的方法，并在两个下游任务上测试了其性能：词性标注和机器翻译。我们的实验证明，在各语言上，通过在词素边界上评估的分割精度和改进的Rényi效率方面，该分割的形态合理性得到了显著提高。尽管所提出的标记化方法对自动翻译质量影响不大，但我们观察到在词性标注这个更具形态学特征的任务中一直存在性能提升。

Jun, 2024