利用子词信息学习词表示的系统研究
本论文研究了如何在语言的概率模型中考虑单词的子结构。从单词的形态学基本概念出发,提出了三种不同类型的语言模型。在n元语言模型中,提出了一种基于复合词分解的Bayesian模型,还开发了一种新的分布式语言模型。在这两种情况下,论文表明考虑单词的子结构可以提高模型性能和机器翻译的质量。此外,我们还探讨了一些可以自动学习语言词根及语言特征的模型。这些方法应用在闪族语言上表现出更好的结果。
Aug, 2015
本文介绍了一种联合模型,能够对单词进行无监督的形态分析,并学习从形态素到单词嵌入的字符级组成函数。该模型对单词进行分割,并根据其预测上下文单词的能力对每个分割部分进行加权。我们的形态分析与专门的形态分析器相当,并且在语法类比回答任务中表现优异。最后,我们表明,将形态学明确纳入字符级模型有助于它们生成与人类判断更相关的未知单词的嵌入。
Jun, 2016
本文提出一种基于skip-gram模型的新方法,其中每个单词被表示为一组字符n-grams的加和。该方法快速、可在大型语料库上快速训练模型,同时可以计算未出现在训练数据中的单词的表示。我们在九种不同的语言上评估了我们的单词表示,通过与最近提出的形态单词表示进行比较,我们发现我们的向量在这些任务上达到了最先进的性能。
Jul, 2016
通过系统地比较不同的基本表示单元、表示单元的组合方式和建模的语言的形态学类型,我们发现用 bi-LSTM 组合字符三元组表示法在大多数情况下优于其他方法,但是没有任何一种基于字符级别的模型能够与直接使用真实的形态学分析相比拟,即使学习数据增加一个数量级。
Apr, 2017
该研究提出了一种新型的表示学习方法,它无需依赖于词语分割和人工注释资源,能有效处理像中文和日文这样的非分割语言中的嘈杂语料库,方法的主要思想是彻底忽略词语边界,利用组合子n-gram的嵌入来构建原始语料库中所有字符n-gram的表示。
Sep, 2018
通过利用子词增强嵌入式框架,本文介绍了一种学习和合成计算产生的子词级别表示的新方法,经过在英文和汉语测试基准上的各种文本理解任务中的实验测试,发现子词增强嵌入式显着改善了我们在各种文本理解任务上的基线。
Nov, 2018
本研究探讨了在低资源环境下,子词信息对单词表示学习的有用性以及其在细粒度实体类型、形态标注和命名实体识别等三个典型形态学任务中的应用价值,结果表明,子词信息可以普适地提升单词表示,但其效果受语言类型和任务的影响,同时,训练单词嵌入和基于任务的模型所需的数据越充足,子词信息的效果才会更好。
Sep, 2019
提出了一种概括单词嵌入的方法,称为PBoS模型,该模型基于单词的拼写,同时对子词划分建模和计算子词组合的单词嵌入,并在词汇相似性和词性标注实验中显示出较好的性能,不需要明确的形态学知识。
Oct, 2020
本论文研究基于数据驱动的子词分割在自然语言处理等领域的应用是否适用于非连接语素构词方式,通过一套测试套件对分割策略在不同形态学现象上的表现进行比较,并发现学习分析和生成表面的形态上下文仍然具有挑战性且应针对多种语言应用测试新的文本表征策略,以减少不同策略对某些语言造成的不利影响。
Sep, 2021
我们提出了三个在标记化和子词分割中的创新。首先,我们建议使用Morfessor的无监督形态分析作为预标记化。其次,我们提出了一种代数方法来获取基于词嵌入空间的子词嵌入。基于此,我们设计了一种使用嵌入的新型子词分割算法,确保该过程考虑了词汇意义。第三,我们引入了一种基于子词二元模型的高效分割算法,可使用词汇感知分割方法进行初始化,以避免在推理时使用Morfessor和大型嵌入表。我们使用两个内在指标评估了所提出的方法,并在两个下游任务上测试了其性能:词性标注和机器翻译。我们的实验证明,在各语言上,通过在词素边界上评估的分割精度和改进的Rényi效率方面,该分割的形态合理性得到了显著提高。尽管所提出的标记化方法对自动翻译质量影响不大,但我们观察到在词性标注这个更具形态学特征的任务中一直存在性能提升。
Jun, 2024