SIGMORPHON 2022 共享任务:形态素切分
该研究以 CoNLL-SIGMORPHON 2017 共享任务为基础,使用监督型形态生成技术在 52 种语言上进行训练和测试,结果表明神经序列到序列模型能够在小训练数据集上取得高性能,但由于不同偏置和数据增强策略导致预测的屈折形式集合不一,因此仍需要进一步的改进措施。
Jun, 2017
SIGMORPHON 2019共享任务关注跨语言转移和上下文形态学分析,研究传递学习和上下文词形还原在66种语言中的应用,同时在100种语言对中考察了词缀的转移,所有的提交中都具备了神经元件。
Oct, 2019
本文研究了两种形态学分割方法的监督和无监督模型,并使用序列到序列模型和条件随机场对其进行训练,利用变压器技术在规范化分割上优于带有注意力的LSTM,并使用基于特征的CRF优于双向LSTM-CRF,在有监督的情况下获得97.1%的F1分数,但在无监督的情况下,该模型的效果并不理想,因此我们希望高性能的监督分割模型将有助于促进发展更好的NLP工具。
Apr, 2021
本论文研究基于数据驱动的子词分割在自然语言处理等领域的应用是否适用于非连接语素构词方式,通过一套测试套件对分割策略在不同形态学现象上的表现进行比较,并发现学习分析和生成表面的形态上下文仍然具有挑战性且应针对多种语言应用测试新的文本表征策略,以减少不同策略对某些语言造成的不利影响。
Sep, 2021
本文研究了形态素如何影响语言模型的性能,通过使用 StateMorph 对芬兰语和俄语进行训练,发现相比于 BPE 和 Morfessor,使用 StateMorph 能够使模型更高效地收敛并获得更好的验证分数。
May, 2023
标准词素分析是将单词分析为其组成形态素的标准(即底层)形式的过程。本文提出了一种利用先前经过训练的高资源单语言模型获得的翻译的字符级序列到序列模型来改善标准分词任务的方法,取得了在无资源情况下超越基准的效果,但在训练数据更多的情况下结果不稳定。尽管在高资源环境中使用翻译仍需进一步研究,但我们的模型在资源极度有限的情况下展现出希望。
Mar, 2024
通过将整个句子作为输入,我们将形态素分割任务重新定义为序列到序列问题,结果显示多语种模型在性能上优于单语种模型,尽管没有超过最先进性能,但与高资源语言相比展现出了可比较的效果,同时揭示了在低资源语言情境下的限制。
Mar, 2024
我们提出了三个在标记化和子词分割中的创新。首先,我们建议使用Morfessor的无监督形态分析作为预标记化。其次,我们提出了一种代数方法来获取基于词嵌入空间的子词嵌入。基于此,我们设计了一种使用嵌入的新型子词分割算法,确保该过程考虑了词汇意义。第三,我们引入了一种基于子词二元模型的高效分割算法,可使用词汇感知分割方法进行初始化,以避免在推理时使用Morfessor和大型嵌入表。我们使用两个内在指标评估了所提出的方法,并在两个下游任务上测试了其性能:词性标注和机器翻译。我们的实验证明,在各语言上,通过在词素边界上评估的分割精度和改进的Rényi效率方面,该分割的形态合理性得到了显著提高。尽管所提出的标记化方法对自动翻译质量影响不大,但我们观察到在词性标注这个更具形态学特征的任务中一直存在性能提升。
Jun, 2024
本研究解决了子词标记化中语义分割方法的有效性,特别是在SIGMORPHON 2024取消的共享任务中。本文采用了统计分割方法Morfessor和基于变换器的序列到序列模型,发现形态分割法与常用子词标记处理方法的效果相当。此外,研究表明,词汇的平衡分布能显著优化语言模型的表现。
Oct, 2024