使用字节级子词训练多语言预训练语言模型
本篇论文探讨了一种基于字节级子词(BBPE)的机器翻译模型,该模型比字符词汇表更紧凑且没有超出词汇表的令牌,并显示了与 BPE 相当的性能,BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量,同时使非重叠字符集的语言之间的模型传递成为可能。
Sep, 2019
分析使用不同词汇分割方法,如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响,并比较它们的效果,在任务绩效中发现 unigram 的方法匹配或优于 BPE,建议开发者在预训练时采用 unigram 方法。
Apr, 2020
本文研究了端到端神经网络的输出表征对多语种自动语音识别的影响,并比较了不同类型的表征。我们专注于开发一个单一的端到端模型来支持基于话语的双语 ASR,并在英语和普通话口述任务上进行实验,发现 BBPE 对话语为基础的双语 ASR 性能可以提高 2%到 5%。
May, 2022
本文研究通过添加新的 Subwords 到 SentencePiece tokenizer 来扩展多语言预训练模型到新语言 (Inuktitut) 并应用于英文到 Inuktitut 翻译。
Nov, 2022
本研究发布了 10 个在相同配置下严格预训练的单语模型,它们是基于字节的,不需要分词,可以消除未见标记嵌入的问题,并且可以在不同文字脚本的语言中尝试更广泛的跨语言实验,通过 QA 和 NLI 任务的实验证明,这些单语模型的性能与多语言模型相当,可以加强我们对语言模型跨语言可迁移性的理解。
Sep, 2022
本文提出将字节对编码(Byte Pair Encoding)引入到通用无监督框架中以解决翻译任务中由于罕见或未知单词对翻译效果的限制,经实验验证在德英和中英翻译任务中,使用 accessor variety 和 description length gain 进行优化能在不同程度上优于基线频率加权方案。
Jul, 2018
该论文提出了一种新的方法 Byte2Word,通过引入交叉注意力网络建立单词级别的表示,并基于单词级别的隐藏状态进行子词级别的预测,从而实现了更精简的输入嵌入方式,同时在语言模型和文本分类上表现出与强大的基准模型 BERT 相当的性能。
Nov, 2022
本文提出一种自动调节神经机器翻译中分词粒度的方法,可以在训练的同时引入新的词汇并优化语言分割,最终达到与最优表现相似的结果,并在训练效率和罕见词汇的表现方面带来了改进。
Oct, 2018
本篇论文探讨使用大型巴斯克语语料库训练的 FastText 词向量、FLAIR 和 BERT 语言模型,在话题分类、情感分类、词性标注和实体识别等下游 NLP 任务中的表现优于公开版本,从而在这些任务中取得了最新的技术成果,所有标准和模型都可公开获取。
Mar, 2020
本文提出了一个简单的方法来解决 NMT 系统处理大词汇量时的问题,该方法是训练系统生成单词的词元和丰富的词性标记,然后进行确定性生成步骤,应用于英语 - 捷克语和英语 - 德语翻译方案中,获得了改进。
Jul, 2017