用于恩格尼语的亚词分语言建模
该研究提出了一种称为子词分节机器翻译(SSMT)的新方法,通过在单个可训练模型中联合学习目标句子单词的分割和目标句子生成,在生成翻译过程中采用动态解码算法进行细分操作,实验结果表明,SSMT 能提高粘着语言的 chrF 分数以及对于评估形态组成通用性构建的测试集的鲁棒性也更强。
May, 2023
该论文介绍了一种名为 SelfSeg 的自监督神经子词分割方法,它比传统的字节对编码(BPE)更快,只需要单语词典而不需要平行语料库,并且在实验中表现出更好的性能。
Jul, 2023
本研究通过对五种语言的三个任务进行大量实验研究,发现在利用子词级别信息进行词表示学习时,不同语言和任务下,分词和组成函数等关键组件的最优配置各异。同时,我们还发现,一些无监督分词方法,如 BPE 和 Morfessor 等,有时能够和甚至超过一些基于监督分词方法的配置。
Apr, 2019
此研究探讨了子词切分在跨语言迁移中的作用,发现子词规范化提高了多语言建模的协同效应,而 BPE 在跨语言微调中更有效地促进了迁移,在子词建模方面的决策对于优化多语言建模的好处至关重要。
Mar, 2024
本文提出将字节对编码(Byte Pair Encoding)引入到通用无监督框架中以解决翻译任务中由于罕见或未知单词对翻译效果的限制,经实验验证在德英和中英翻译任务中,使用 accessor variety 和 description length gain 进行优化能在不同程度上优于基线频率加权方案。
Jul, 2018
本文探究了针对四种多合成语言(Nahuatl,Raramuri,Shipibo-Konibo 和 Wixarika)的一系列监督式和非监督式的词形分割方法,并将词形分割方法与字节对编码(BPEs)进行比较,发现在翻译到和从西班牙语的所有语言对中,除了 Nahuatl 外,非监督式的词形分割算法一直表现优异,而监督式的方法在机器翻译挑战中表现不佳。最后,我们为 Raramuri 和 Shipibo-Konibo 捐献了两个新的词形分割数据集,以及一个 Raramuri - 西班牙语平行语料库。
Mar, 2022
我们介绍了一种考虑词素的子词切分方法,利用字符的分解方法来解决字节对编码(BPE)在韩语中应用所面临的挑战,韩语的特点是丰富的语态和独特的书写系统。我们的方法在预训练语言模型(PLMs)中平衡了语言准确性和计算效率。我们的评估结果显示,该技术在整体上表现良好,显著提高了 NIKL-CoLA 句法任务的结果。这表明融合词素类型信息可以增强语言模型的句法和语义能力,表示采用更多的语言洞察力可以进一步提高性能,超越标准的形态分析。
Nov, 2023
我们提出了三个在标记化和子词分割中的创新。首先,我们建议使用 Morfessor 的无监督形态分析作为预标记化。其次,我们提出了一种代数方法来获取基于词嵌入空间的子词嵌入。基于此,我们设计了一种使用嵌入的新型子词分割算法,确保该过程考虑了词汇意义。第三,我们引入了一种基于子词二元模型的高效分割算法,可使用词汇感知分割方法进行初始化,以避免在推理时使用 Morfessor 和大型嵌入表。我们使用两个内在指标评估了所提出的方法,并在两个下游任务上测试了其性能:词性标注和机器翻译。我们的实验证明,在各语言上,通过在词素边界上评估的分割精度和改进的 Rényi 效率方面,该分割的形态合理性得到了显著提高。尽管所提出的标记化方法对自动翻译质量影响不大,但我们观察到在词性标注这个更具形态学特征的任务中一直存在性能提升。
Jun, 2024