为新语言扩展多语预训练模型的子词模型
本文介绍了使用 Byte-Level BPE 技术训练 NEZHA 多语言预训练语言模型,并通过多语言 NLU 任务验证其性能显着优于 Google 多语言 BERT 和原始 NEZHA 模型。
Jan, 2021
综合比较多语言预训练模型的效率时,在考虑内存使用、推理速度和数据健壮性等方面,基于子词的模型仍然是许多场景下更可靠的选择,此为当前研究结果,建议未来的 tokenizer-free 方法在设计和评估模型时也要考虑这些因素。
Oct, 2022
本文证明多语言预训练可以通过多语言微调来创建多语言翻译模型,并且证明在不失性能的前提下,预训练模型可以扩展到更多语言。此外,作者基于 ML50 数据集表明,多语言微调相较于其他训练方式有显著提升。
Aug, 2020
本研究尝试将预训练的多语言 wav2vec 2.0 神经模型应用于研究极度濒危的阿伊努语,通过多语言微调和预训练对模型进行改进,结果显示继续预训练是适应新语言的最有效方法,并且利用类似语言的数据进行微调可以显著减少错误率。
Jan, 2023
此研究探讨了子词切分在跨语言迁移中的作用,发现子词规范化提高了多语言建模的协同效应,而 BPE 在跨语言微调中更有效地促进了迁移,在子词建模方面的决策对于优化多语言建模的好处至关重要。
Mar, 2024
本文介绍了 CIC NLP 为 AmericasNLP 2023 的美洲土著语言机器翻译系统共享任务提交的三种方法,其中使用了 M2M-100、mBART50 和 Helsinki NLP Spanish-English 翻译模型,总体而言,mBART 设置能够在 11 种语言中的三种语言中改善基线。
May, 2023
本文提出了一种无需词汇表的神经分词器,通过处理多语言语料库中的独特单词来预训练基于字符的分词器,从而广泛增加语言间的单词多样性,进而克服了子词分词存在的一些问题,如无法进行端到端任务学习,适应性不足,以及在低资源语言中表现欠佳等,实验证明该神经分词器能显著提升多语言(NLI)和混合语言情感分析等任务的性能并且具有较强的鲁棒性。
Apr, 2022
本文研究了两种方法(联合映射和混合映射)来解决预先训练的 BERT 多语言模型中的词汇表大小和词汇缺失问题,并在多个任务中进行了实验。结果表明,使用混合映射更有前途。这是首次在多语言环境下试图解决词汇缺失问题。
Sep, 2019
本文介绍了一种从维基百科数据中创建特定语言 BERT 模型的简单完全自动化流程,并引入 42 个新的这种模型,以往缺乏专门深度神经语言模型的语言。我们使用现有的 UDify 解析器对这些模型的优点进行评估,并发现 UDify 使用的 WikiBERT 模型在平均性能方面优于使用 mBERT 的解析器,这些特定语言模型在某些语言方面表现出显著的改进,而在其他语言方面改进有限或性能下降。我们还提供了初步结果作为了解特定语言模型最有益的条件的第一步。
Jun, 2020
对于语言中包含丰富词形的复杂语言,使用预训练字符序列的 BERT-style 掩码语言模型进行训练和推理而不是基于子单元的方式可能会得到更好的表现。但是,对于语义任务,基于子单元的 PLM 表现更好,这证实了基于子单元的分词作为许多语言的合理建模假设的潜力。
Apr, 2022