本文研究了在土耳其语(OSCAR corpus)的分裂数据上,比较了不同粒度级别的分词器的性能和预训练语言模型的效果,并发现单独定制的分子级别分词器具有挑战性的表现,同时也发现增加词汇量可以提高单独定制的分子级别分词器以及使用RoBERTa预训练的中型语言模型的性能。
Apr, 2022
本文提出了一种无需词汇表的神经分词器,通过处理多语言语料库中的独特单词来预训练基于字符的分词器,从而广泛增加语言间的单词多样性,进而克服了子词分词存在的一些问题,如无法进行端到端任务学习,适应性不足,以及在低资源语言中表现欠佳等,实验证明该神经分词器能显著提升多语言(NLI)和混合语言情感分析等任务的性能并且具有较强的鲁棒性。
该研究探讨了在使用基于子词分割的预训练语言模型(PLMs)中,字符级信息被编码的机制以及这些模型如何获得英语语言字符信息,结论表明这些模型可以很好地编码字符级信息并通过一系列实验证明这些结果是普遍适用的,并归纳了多种现象对于知识获取的作用,其中自然变化是其中之一
Jun, 2022
本文介绍了一种名为MANTa的模块,用于自适应神经分词,结果表现出字节级模型的表现和基于子词的模型的速度之间的平衡,并且显式地将序列分段,从而提高了语言模型的鲁棒性。
Dec, 2022
本研究提出了一种基于语义的新型分词器,使用词干来增强子词的形成,最小化未编码的单词数量,对接Trainer,实现了比SentencePiece分词器更高效的分词,并在BERT模型上实验,表明此方法可以将单词数量提高一倍以上,并显着提高NLP模型的收敛速度和单词及句子嵌入的质量,成绩排名Glue任务之前,比同等规模的模型优越50倍以上。
Apr, 2023
这篇论文通过学习词边界将字节/字符聚合成词表示,并在主要语言模型中解码个别字符/字节,结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节/字符模型更好,特别是在稀有词方面达到了30倍的效果提升。
Oct, 2023
通过研究变压器在简单数据生成过程上的行为,我们探讨了词汇标记的理论视角,发现词汇标记对于变压器模型的训练是必要的,并验证了合适的词汇标记可以使变压器模型在学习k阶马尔可夫源的概率时达到近乎最优的结果。
Apr, 2024
通过提出一种新颖的算法,我们可以从单词化数据中得到无偏估计,而不需要调整模型。通过 Markov 链设置,我们从标记化语言模型中精准恢复了转换概率。
Jun, 2024
本研究解决了传统语音分词与语言模型训练独立的问题,通过利用预训练文本语言模型的目标优化语音分词器的训练方式。新方法不仅有效提升了语音模型的聚类效果,还实现了单一预训练语言模型处理语音和文本输入,显著优于传统方法。
Sep, 2024
本研究针对当前语音分词与语言模型之间的匹配问题,提出了一种新的训练方法,利用预训练文本语言模型的目标来优化语音表示的学习过程。实验结果表明,该方法在语音语言建模和语音转文本任务上优于传统基线,并且能够使用单一的预训练语言模型处理语音和文本输入,提供了更高效的解决方案。