内部 - 外部的形态分割
我们提出了有标签的形态学分割,这是一种统一几个任务的形态处理的替代视角。从标注角度来看,我们还引入了一种新的形态句法标签集的层次结构。最后,我们开发了 extsc {modelname},这是一个判别性的形态学分割系统,与之前的工作相反,它明确地建模了形态句法。我们展示了 extsc {modelname} 在六种语言的三个任务上的改进表现:(i)形态学分割,(ii)词干提取和(iii)形态学标签分类。在形态学分割上,我们的方法相对于基准线有 2-6 个 $F_1$ 的绝对改进。
Apr, 2024
本文介绍了一种联合模型,能够对单词进行无监督的形态分析,并学习从形态素到单词嵌入的字符级组成函数。该模型对单词进行分割,并根据其预测上下文单词的能力对每个分割部分进行加权。我们的形态分析与专门的形态分析器相当,并且在语法类比回答任务中表现优异。最后,我们表明,将形态学明确纳入字符级模型有助于它们生成与人类判断更相关的未知单词的嵌入。
Jun, 2016
该研究使用阿拉伯语探讨了联合建模的方法,具体包括字符级别的词汇化特征和字词级别的非词汇化特征,可以更好地将模糊的语言特征解模糊,进一步提高模型的效果和词义的准确性。该方法在现代标准阿拉伯语和阿拉伯埃及话方言的翻译中都取得了相对较好的实验结果。
Oct, 2019
本文研究了两种形态学分割方法的监督和无监督模型,并使用序列到序列模型和条件随机场对其进行训练,利用变压器技术在规范化分割上优于带有注意力的 LSTM,并使用基于特征的 CRF 优于双向 LSTM-CRF,在有监督的情况下获得 97.1%的 F1 分数,但在无监督的情况下,该模型的效果并不理想,因此我们希望高性能的监督分割模型将有助于促进发展更好的 NLP 工具。
Apr, 2021
通过引入形态结构指导标记,提出了一种深度模型来诱导单词的字符级结构,该方法在形态分割任务和语言建模任务上表现良好,并优于 BPE 和 WordPiece 等广泛采用的方法。
Jun, 2024
该研究提出了一种新颖的概率模型来捕捉单词形成的分析和合成的含义,利用神经网络的向量组合方法,共同学习单词的形态划分和语义语素的分布式向量,提高了单词的分割准确率和语素 F1 指标 3% 至 5%。
Jan, 2017
通过将词汇的正字法和语义视图相结合,采用基于形态学链的无监督形态学分析模型,使用形态素和单词级别特征的对数线性模型预测可能的父节点来分析阿拉伯语、英语和土耳其语的单词。
Mar, 2015
通过将整个句子作为输入,我们将形态素分割任务重新定义为序列到序列问题,结果显示多语种模型在性能上优于单语种模型,尽管没有超过最先进性能,但与高资源语言相比展现出了可比较的效果,同时揭示了在低资源语言情境下的限制。
Mar, 2024
本文关注无监督建模形态家族,用整数线性规划 (ILP) 和对比评估解决了此问题,并在三个任务中进行了评估。实验表明,我们的模型在根检测,形态家族聚类和分割等任务方面相较于之前的研究获得了显著进展。
Feb, 2017