团队Ryu对SIGMORPHON 2024子词标记化共享任务的提交
本文介绍了一种针对单语词根基于期望最大化算法和词典剪枝的 unigram 子词模型的训练算法,并比较了不同算法在英语、芬兰语、北萨米语和土耳其语数据集上的效果。通过改进优化问题,提高了基于语言黄金标准的单词分割的准确率。同时,我们在广泛使用的 Morfessor 软件包中公开了新算法的实现。
Mar, 2020
本论文研究基于数据驱动的子词分割在自然语言处理等领域的应用是否适用于非连接语素构词方式,通过一套测试套件对分割策略在不同形态学现象上的表现进行比较,并发现学习分析和生成表面的形态上下文仍然具有挑战性且应针对多种语言应用测试新的文本表征策略,以减少不同策略对某些语言造成的不利影响。
Sep, 2021
该研究介绍了SIGMORPHON 2022 共享任务关于形态素分割,试图将单词分解为一系列形态素,并覆盖了大部分类型的形态学。结果表明,该任务的提交结果对于单词级别和句子级别的形态素分割与现有的3种子单词分割方法相比有显著提高,为错误分析和未来的研究提供了有用的数据。
Jun, 2022
本文提出一种新的标记方法,使用VQ-VAE模型将子词分解为离散三元组,结果表明所提出的Factorizer标记方法在语言建模和形态句法任务方面比常用的字节对编码(BPE)标记算法更为适合和稳健。
Jun, 2023
本研究提出了一种基于形态分词的语言学分词方案MorphPiece,并使用此方法训练了一个基于GPT的语言模型MorphGPT。相对于标准的BPE分词器,MorphGPT具有更好的性能表现,包括在超大语言模型性能及NLP任务上表现出更高水平。
Jul, 2023
标准词素分析是将单词分析为其组成形态素的标准(即底层)形式的过程。本文提出了一种利用先前经过训练的高资源单语言模型获得的翻译的字符级序列到序列模型来改善标准分词任务的方法,取得了在无资源情况下超越基准的效果,但在训练数据更多的情况下结果不稳定。尽管在高资源环境中使用翻译仍需进一步研究,但我们的模型在资源极度有限的情况下展现出希望。
Mar, 2024
我们提出了一种联合内在-外在评估框架用于子词切分,通过UniMorph Labeller工具对子词切分进行内在评估,将其分类为形态还是外语;然后通过Out-of-Vocabulary Generalization Challenge 1.0基准进行外在评估,包括三个新指定的下游文本分类任务;我们的实证研究发现,UniMorph Labeller的准确率达到了98%;而在所有语言模型(包括ALBERT、BERT、RoBERTa和DeBERTa)中,与形态切分相比,外语切分导致了更差的泛化能力,影响了词义的语义组合性。
Apr, 2024
我们提出了三个在标记化和子词分割中的创新。首先,我们建议使用Morfessor的无监督形态分析作为预标记化。其次,我们提出了一种代数方法来获取基于词嵌入空间的子词嵌入。基于此,我们设计了一种使用嵌入的新型子词分割算法,确保该过程考虑了词汇意义。第三,我们引入了一种基于子词二元模型的高效分割算法,可使用词汇感知分割方法进行初始化,以避免在推理时使用Morfessor和大型嵌入表。我们使用两个内在指标评估了所提出的方法,并在两个下游任务上测试了其性能:词性标注和机器翻译。我们的实验证明,在各语言上,通过在词素边界上评估的分割精度和改进的Rényi效率方面,该分割的形态合理性得到了显著提高。尽管所提出的标记化方法对自动翻译质量影响不大,但我们观察到在词性标注这个更具形态学特征的任务中一直存在性能提升。
Jun, 2024
通过引入形态结构指导标记,提出了一种深度模型来诱导单词的字符级结构,该方法在形态分割任务和语言建模任务上表现良好,并优于BPE和WordPiece等广泛采用的方法。
Jun, 2024