无监督学习词形树

ACLFeb, 2017

Unsupervised Learning of Morphological Forests

Jiaming Luo, Karthik Narasimhan, Regina Barzilay

TL;DR本文关注无监督建模形态家族，用整数线性规划 (ILP) 和对比评估解决了此问题，并在三个任务中进行了评估。实验表明，我们的模型在根检测，形态家族聚类和分割等任务方面相较于之前的研究获得了显著进展。

Abstract

This paper focuses on unsupervised modeling of morphological families, collectively comprising a forest over the language vocabulary. This formulation enables us to capture edgewise properties reflecting single-s

unsupervised modeling morphological families integer linear programming root detection segmentation

发现论文，激发创造

揭示形态学链的无监督方法

通过将词汇的正字法和语义视图相结合，采用基于形态学链的无监督形态学分析模型，使用形态素和单词级别特征的对数线性模型预测可能的父节点来分析阿拉伯语、英语和土耳其语的单词。

Mar, 2015

无监督形态学范式补全

本文提出了无监督词形范式补全的任务，并介绍了一个通过编辑树检索、范式规模探测和屈折生成等步骤生成词态的系统，该系统在 14 个语言上得到了很好的性能。

May, 2020

形态学屈折的最小监督

该研究使用少量标记的数据引导标注词形变化，利用不同类型的规律，通过类比词标记和距离对词配对，证明了手工标记许多示例可能是不必要的。

Apr, 2021

无监督发现词素

本研究提出了两种方法来对单词进行无监督分词，特别适用于富有形态学的语言，如芬兰语。第一种方法基于 MDL 原则并且可以在线进行。在第二种方法中使用了最大似然 (ML) 优化。比较所得到的分割和现有的形态分析，证明这些方法在芬兰语和英语语料库上表现良好，相对于现有的一流系统而言。

May, 2002

词形变化词典中的未监督歧义消解

本文提出了使用基于神经网络的无监督学习方法来处理语料库中的词汇歧义问题，该方法在不考虑上下文的情况下，使用概率模型来推断单词形态上下文的各种分析，最终通过评估指标在五种语言上取得了一定效果。

Jun, 2018

带半马尔可夫模型的标注形态学分割

我们提出了有标签的形态学分割，这是一种统一几个任务的形态处理的替代视角。从标注角度来看，我们还引入了一种新的形态句法标签集的层次结构。最后，我们开发了 extsc {modelname}，这是一个判别性的形态学分割系统，与之前的工作相反，它明确地建模了形态句法。我们展示了 extsc {modelname} 在六种语言的三个任务上的改进表现：（i）形态学分割，（ii）词干提取和（iii）形态学标签分类。在形态学分割上，我们的方法相对于基准线有 2-6 个 $F_1$ 的绝对改进。

Apr, 2024

内部 - 外部的形态分割

本文介绍了一种较为新的基于语境的、具有层级结构的标注模型，此模型结合形态分析和词汇造形中的拼写变化，有别于传统的非层级结构模型，并发布了一个包含 7454 个英语单词的标注树库，期望此成果能促进该领域的后续研究。

Nov, 2019

词表示和语言建模的组成形态学

本论文提出了一种可扩展的方法，将组成形态学表示集成到基于向量的概率语言模型中，并在语言模型因词汇而被适当地实现以实现内部和外部评估，在一些语言上进行实验研究并展示结果，表明我们的模型学习了形态学表示，在词相似性任务上表现出色且使困惑度大幅降低，用于转化大词汇量的形态丰富语言时，我们的模型相对于使用回退 N-gram 模型的基线系统，可以获得高达 1.2 的蓝点改进。

May, 2014

Morph-fitting：用简单的特定语言规则微调词向量空间

提出了一种新颖的基于词形的约束方法，通过使用简单的语言特定规则来改进分布向量空间的语义质量，这种方法可以提高低频词估计的准确性，并在解决语言理解任务的长尾现象方面取得显著的效果。

Jun, 2017

词嵌入和词形态的联合模型

本文介绍了一种联合模型，能够对单词进行无监督的形态分析，并学习从形态素到单词嵌入的字符级组成函数。该模型对单词进行分割，并根据其预测上下文单词的能力对每个分割部分进行加权。我们的形态分析与专门的形态分析器相当，并且在语法类比回答任务中表现优异。最后，我们表明，将形态学明确纳入字符级模型有助于它们生成与人类判断更相关的未知单词的嵌入。

Jun, 2016