SIGMORPHON 2022 共享任务:形态素切分
该研究以 CoNLL-SIGMORPHON 2017 共享任务为基础,使用监督型形态生成技术在 52 种语言上进行训练和测试,结果表明神经序列到序列模型能够在小训练数据集上取得高性能,但由于不同偏置和数据增强策略导致预测的屈折形式集合不一,因此仍需要进一步的改进措施。
Jun, 2017
CoNLL-SIGMORPHON 2018 shared task focused on supervised learning and morphological generation for over 100 languages, with task 1, inflection task, receiving 27 submissions and task 2, the cloze task, receiving 6 submissions where most systems utilized neural components and improvements were seen from last year's inflection task.
Oct, 2018
SIGMORPHON 2019 共享任务关注跨语言转移和上下文形态学分析,研究传递学习和上下文词形还原在 66 种语言中的应用,同时在 100 种语言对中考察了词缀的转移,所有的提交中都具备了神经元件。
Oct, 2019
该研究记录了使用编码器 - 解码器结构、多任务学习和多语言训练等创新方法,在 CoNLL-SIGMORPHON 2018 共享任务中获得高准确度表现的 Team Copenhagen 系统,主要关注于上下文中的词形转化,进而提高词形转化的质量。
Sep, 2018
在这篇文章中,我们描述了我们参加的梵语单词分割和形态分析比赛,并提出了一个基于序列标注来预测分割操作的单词分割方法和一个基于形态标记预测转换规则来进行形态分析的方法,同时提出了一种用于联合分割和形态分析的端到端可训练的流水线模型,在联合分割和分析子任务中取得了最好的成绩(80.018 F1 score),在单独的子任务中表现第二好(分割:96.189 F1 score / 分析:69.180 F1 score)。最后,我们分析了模型的错误并就数据和评估提出了未来的研究和可能的改进。
Jan, 2022
通过将整个句子作为输入,我们将形态素分割任务重新定义为序列到序列问题,结果显示多语种模型在性能上优于单语种模型,尽管没有超过最先进性能,但与高资源语言相比展现出了可比较的效果,同时揭示了在低资源语言情境下的限制。
Mar, 2024
我们提出了三个在标记化和子词分割中的创新。首先,我们建议使用 Morfessor 的无监督形态分析作为预标记化。其次,我们提出了一种代数方法来获取基于词嵌入空间的子词嵌入。基于此,我们设计了一种使用嵌入的新型子词分割算法,确保该过程考虑了词汇意义。第三,我们引入了一种基于子词二元模型的高效分割算法,可使用词汇感知分割方法进行初始化,以避免在推理时使用 Morfessor 和大型嵌入表。我们使用两个内在指标评估了所提出的方法,并在两个下游任务上测试了其性能:词性标注和机器翻译。我们的实验证明,在各语言上,通过在词素边界上评估的分割精度和改进的 Rényi 效率方面,该分割的形态合理性得到了显著提高。尽管所提出的标记化方法对自动翻译质量影响不大,但我们观察到在词性标注这个更具形态学特征的任务中一直存在性能提升。
Jun, 2024
本文探究了针对四种多合成语言(Nahuatl,Raramuri,Shipibo-Konibo 和 Wixarika)的一系列监督式和非监督式的词形分割方法,并将词形分割方法与字节对编码(BPEs)进行比较,发现在翻译到和从西班牙语的所有语言对中,除了 Nahuatl 外,非监督式的词形分割算法一直表现优异,而监督式的方法在机器翻译挑战中表现不佳。最后,我们为 Raramuri 和 Shipibo-Konibo 捐献了两个新的词形分割数据集,以及一个 Raramuri - 西班牙语平行语料库。
Mar, 2022
我们在 SIGMORPHON2019 共享任务中对 UDPip2.0 进行修改,使用预训练的上下文化嵌入 (BERT) 作为网络的附加输入,使用单独的形态特征作为正则化,并合并了同一语言的选定语料库,在词形还原任务中,我们的系统的准确性达到了 95.78,超过所有提交的系统,且在词态分析方面取得了 93.19 的准确度,是一个非常有前途的研究。
Aug, 2019