探究子词分割对 Transformer 语言模型性能的影响
本文通过对 145 个语言的 92 个圣经翻译及其更多的分类特征的分析,探讨了语言的屈折变化是否使得多语言语言建模更加困难,发现基于神经网络的语言建模方法可以通过采用 FST 等分词策略来进一步降低语言构型的影响。
Dec, 2020
我们提出了三个在标记化和子词分割中的创新。首先,我们建议使用 Morfessor 的无监督形态分析作为预标记化。其次,我们提出了一种代数方法来获取基于词嵌入空间的子词嵌入。基于此,我们设计了一种使用嵌入的新型子词分割算法,确保该过程考虑了词汇意义。第三,我们引入了一种基于子词二元模型的高效分割算法,可使用词汇感知分割方法进行初始化,以避免在推理时使用 Morfessor 和大型嵌入表。我们使用两个内在指标评估了所提出的方法,并在两个下游任务上测试了其性能:词性标注和机器翻译。我们的实验证明,在各语言上,通过在词素边界上评估的分割精度和改进的 Rényi 效率方面,该分割的形态合理性得到了显著提高。尽管所提出的标记化方法对自动翻译质量影响不大,但我们观察到在词性标注这个更具形态学特征的任务中一直存在性能提升。
Jun, 2024
本文介绍了一种针对单语词根基于期望最大化算法和词典剪枝的 unigram 子词模型的训练算法,并比较了不同算法在英语、芬兰语、北萨米语和土耳其语数据集上的效果。通过改进优化问题,提高了基于语言黄金标准的单词分割的准确率。同时,我们在广泛使用的 Morfessor 软件包中公开了新算法的实现。
Mar, 2020
本研究提出了一种基于形态分词的语言学分词方案 MorphPiece,并使用此方法训练了一个基于 GPT 的语言模型 MorphGPT。相对于标准的 BPE 分词器,MorphGPT 具有更好的性能表现,包括在超大语言模型性能及 NLP 任务上表现出更高水平。
Jul, 2023
本研究介绍了一个广泛的多语言探测词形信息数据集,利用预训练变形金刚模型(mBERT 和 XLM-RoBERTa),并应用两种方法确定输入中区别信息的位置以实现强大的性能。其中最显著的发现是前缀上下文持有比后缀上下文更多相关预测信息。
Jun, 2023
Aalto 大学使用基于 Transformer 模型的系统,通过引入跨语言的 Cognate Morfessor 来改进英语到芬兰语和爱沙尼亚语翻译的一致性,尤其是对于爱沙尼亚语这种资源相对较少的语言,同时在 WMT18 新闻翻译中取得了好的结果。
Aug, 2018
本研究以 BERT 为例,探究预训练语言模型的输入分割如何影响其复杂单词的语义表示,揭示了 PLMs 可以解释为串行双路模型,最有意义的输入标记应该允许在新词汇上进行最佳泛化。通过一系列的语义探测任务,我们证明了有派生输入分割的 DelBERT 能够显著地优于 WordPiece 分割的 BERT。减少子词切分的输入标记或许能够提高 PLMs 的泛化性能。
Jan, 2021
我们介绍了一种考虑词素的子词切分方法,利用字符的分解方法来解决字节对编码(BPE)在韩语中应用所面临的挑战,韩语的特点是丰富的语态和独特的书写系统。我们的方法在预训练语言模型(PLMs)中平衡了语言准确性和计算效率。我们的评估结果显示,该技术在整体上表现良好,显著提高了 NIKL-CoLA 句法任务的结果。这表明融合词素类型信息可以增强语言模型的句法和语义能力,表示采用更多的语言洞察力可以进一步提高性能,超越标准的形态分析。
Nov, 2023
本研究提出了 Morph Call,它是针对四种不同形态的印欧语言(英语,法语,德语和俄语)的 46 个探测任务套件,使用诱导句子扰动的检测方法,在神经元,层和表示水平上分析了四个多语言 transformers 的形态句法内容,其中包括其不太被探究的蒸馏版本,并研究了精调 POS 标记对模型知识的影响。研究结果表明,精调可以改善和降低探测性能,并改变形态句法知识在模型中的分布。代码和数据公开,希望填补 transformers 的研究空白。
Apr, 2021