BPEmb:275 种语言中的无需分词的预训练子词嵌入
分析使用不同词汇分割方法,如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响,并比较它们的效果,在任务绩效中发现 unigram 的方法匹配或优于 BPE,建议开发者在预训练时采用 unigram 方法。
Apr, 2020
本文对多语种命名实体识别和词性标注任务中预训练的 BERT、BPEmb 和 FastText 非上下文子词嵌入进行系统性评估,发现对于跨语言和任务而言,BERT、BPEmb 和字符表示的组合效果最佳,但在资源匮乏的情况下,非上下文子词嵌入的表现更加优秀。
Jun, 2019
本篇论文探讨了一种基于字节级子词(BBPE)的机器翻译模型,该模型比字符词汇表更紧凑且没有超出词汇表的令牌,并显示了与 BPE 相当的性能,BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量,同时使非重叠字符集的语言之间的模型传递成为可能。
Sep, 2019
该研究介绍了一种以单个 BiLSTM 编码器为基础的多语言句子表示架构,其使用共享的 BPE 词汇表来学习 93 种语言的嵌入表示,并在公开可用的平行语料库上进行了训练。使用英文注释数据进行分类器训练,可将其转移至任何一种语言,且可以在跨语言自然语言推理、文档分类和平行语料库挖掘中取得良好效果。
Dec, 2018
本文介绍了使用 Byte-Level BPE 技术训练 NEZHA 多语言预训练语言模型,并通过多语言 NLU 任务验证其性能显着优于 Google 多语言 BERT 和原始 NEZHA 模型。
Jan, 2021
通过实验证明,对于孟加拉语,Byte pair encoding (BPE) 是一种在自动语音识别(ASR)中改善识别性能的有效分词方法,较佳的 BPE token 数量为大约 500-1000 个。
Jan, 2024
提出一种基于字符的子词模块 (char2subword),它可以学习预训练模型 (BERT) 中的子词嵌入表,并通过预训练进一步集成到 BERT 中,从而显著提高在社交媒体语言代码切换评估 (LinCE) 的表现。
Oct, 2020
通过实现以字节作为序列的计算机文本的表示,同时将深度学习模型中的嵌入层替换为每个字节的一热表示,可以在不影响模型性能的情况下,将最先进的机器翻译模型推广到字节级别。
Aug, 2020
通过追踪分词器从词级到子词级的演变,本研究分析了分词器如何在增强模型适应性的同时控制复杂度方面平衡标记和类型。根据认知科学中的 “最省力原则”,本文提出了一种新的 LLN 分词器 LiB 模型,它可以自主学习由子词、词和多词表达式组成的综合词汇,从而有效减少标记和类型的数量。比较评估显示,LiB 分词器优于现有的词级和 BPE 分词器,为分词器开发提供了创新方法,并提示未来的基于认知科学的分词器可能更为高效。
Mar, 2024
本文提出的 CharBERT 模型是一个字符感知的预训练语言模型,通过新颖的异构交互模块将字符表示和子词表示进行融合,并提供了一种名为 NLM 的无监督字符表示学习的新的预训练任务,实验结果表明该模型能够同时提高 PLM 的性能和鲁棒性。
Nov, 2020