通过将词汇的正字法和语义视图相结合,采用基于形态学链的无监督形态学分析模型,使用形态素和单词级别特征的对数线性模型预测可能的父节点来分析阿拉伯语、英语和土耳其语的单词。
Mar, 2015
本文提出了无监督词形范式补全的任务,并介绍了一个通过编辑树检索、范式规模探测和屈折生成等步骤生成词态的系统,该系统在 14 个语言上得到了很好的性能。
May, 2020
该研究使用少量标记的数据引导标注词形变化,利用不同类型的规律,通过类比词标记和距离对词配对,证明了手工标记许多示例可能是不必要的。
Apr, 2021
本研究提出了两种方法来对单词进行无监督分词,特别适用于富有形态学的语言,如芬兰语。第一种方法基于 MDL 原则并且可以在线进行。在第二种方法中使用了最大似然 (ML) 优化。比较所得到的分割和现有的形态分析,证明这些方法在芬兰语和英语语料库上表现良好,相对于现有的一流系统而言。
May, 2002
本文提出了使用基于神经网络的无监督学习方法来处理语料库中的词汇歧义问题,该方法在不考虑上下文的情况下,使用概率模型来推断单词形态上下文的各种分析,最终通过评估指标在五种语言上取得了一定效果。
Jun, 2018
我们提出了有标签的形态学分割,这是一种统一几个任务的形态处理的替代视角。从标注角度来看,我们还引入了一种新的形态句法标签集的层次结构。最后,我们开发了 extsc {modelname},这是一个判别性的形态学分割系统,与之前的工作相反,它明确地建模了形态句法。我们展示了 extsc {modelname} 在六种语言的三个任务上的改进表现:(i)形态学分割,(ii)词干提取和(iii)形态学标签分类。在形态学分割上,我们的方法相对于基准线有 2-6 个 $F_1$ 的绝对改进。
Apr, 2024
本文介绍了一种较为新的基于语境的、具有层级结构的标注模型,此模型结合形态分析和词汇造形中的拼写变化,有别于传统的非层级结构模型,并发布了一个包含 7454 个英语单词的标注树库,期望此成果能促进该领域的后续研究。
Nov, 2019
本论文提出了一种可扩展的方法,将组成形态学表示集成到基于向量的概率语言模型中,并在语言模型因词汇而被适当地实现以实现内部和外部评估,在一些语言上进行实验研究并展示结果,表明我们的模型学习了形态学表示,在词相似性任务上表现出色且使困惑度大幅降低,用于转化大词汇量的形态丰富语言时,我们的模型相对于使用回退 N-gram 模型的基线系统,可以获得高达 1.2 的蓝点改进。
May, 2014
提出了一种新颖的基于词形的约束方法,通过使用简单的语言特定规则来改进分布向量空间的语义质量,这种方法可以提高低频词估计的准确性,并在解决语言理解任务的长尾现象方面取得显著的效果。
Jun, 2017
本文介绍了一种联合模型,能够对单词进行无监督的形态分析,并学习从形态素到单词嵌入的字符级组成函数。该模型对单词进行分割,并根据其预测上下文单词的能力对每个分割部分进行加权。我们的形态分析与专门的形态分析器相当,并且在语法类比回答任务中表现优异。最后,我们表明,将形态学明确纳入字符级模型有助于它们生成与人类判断更相关的未知单词的嵌入。
Jun, 2016