BPEmb：275 种语言中的无需分词的预训练子词嵌入

Oct, 2017

BPEmb：275 种语言中的无需分词的预训练子词嵌入

BPEmb: Tokenization-free Pre-trained Subword Embeddings in 275 Languages

Benjamin Heinzerling, Michael Strube

TL;DRBPEmb 是一个基于字节对编码（BPE）的资源高效、支持多种语言的预训练子词单元嵌入集合，经实验表现良好，特别是在实体类型上，有时优于替代的子词处理方法，可在不需要分词的情况下使用。

Abstract

We present bpemb, a collection of pre-trained subword unit embeddings in 275 languages, based on Byte-Pair Encoding (BPE). In an evaluation using fine-grained →

bpemb subword unit embeddings entity typing resource-efficient multi-lingual

发现论文，激发创造

Byte Pair Encoding 不适用于语言模型预训练

分析使用不同词汇分割方法，如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响，并比较它们的效果，在任务绩效中发现 unigram 的方法匹配或优于 BPE，建议开发者在预训练时采用 unigram 方法。

Apr, 2020

使用上下文和非上下文表示的序列标注：一项多语言评估

本文对多语种命名实体识别和词性标注任务中预训练的 BERT、BPEmb 和 FastText 非上下文子词嵌入进行系统性评估，发现对于跨语言和任务而言，BERT、BPEmb 和字符表示的组合效果最佳，但在资源匮乏的情况下，非上下文子词嵌入的表现更加优秀。

Jun, 2019

基于字节级子词的神经机器翻译

本篇论文探讨了一种基于字节级子词（BBPE）的机器翻译模型，该模型比字符词汇表更紧凑且没有超出词汇表的令牌，并显示了与 BPE 相当的性能，BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量，同时使非重叠字符集的语言之间的模型传递成为可能。

Sep, 2019

用于零样本跨语言传递和更多应用的大规模多语句向量化技术

该研究介绍了一种以单个 BiLSTM 编码器为基础的多语言句子表示架构，其使用共享的 BPE 词汇表来学习 93 种语言的嵌入表示，并在公开可用的平行语料库上进行了训练。使用英文注释数据进行分类器训练，可将其转移至任何一种语言，且可以在跨语言自然语言推理、文档分类和平行语料库挖掘中取得良好效果。

Dec, 2018

使用字节级子词训练多语言预训练语言模型

本文介绍了使用 Byte-Level BPE 技术训练 NEZHA 多语言预训练语言模型，并通过多语言 NLU 任务验证其性能显着优于 Google 多语言 BERT 和原始 NEZHA 模型。

Jan, 2021

字节对编码是自动孟加拉语语音识别所需的全部

通过实验证明，对于孟加拉语，Byte pair encoding (BPE) 是一种在自动语音识别（ASR）中改善识别性能的有效分词方法，较佳的 BPE token 数量为大约 500-1000 个。

Jan, 2024

Char2Subword：利用强健的字符组合扩展子词嵌入空间

提出一种基于字符的子词模块 (char2subword)，它可以学习预训练模型 (BERT) 中的子词嵌入表，并通过预训练进一步集成到 BERT 中，从而显著提高在社交媒体语言代码切换评估 (LinCE) 的表现。

Oct, 2020

不使用嵌入的神经机器翻译

通过实现以字节作为序列的计算机文本的表示，同时将深度学习模型中的嵌入层替换为每个字节的一热表示，可以在不影响模型性能的情况下，将最先进的机器翻译模型推广到字节级别。

Aug, 2020

重新思考分词：为大型语言模型打造更好的分词器

通过追踪分词器从词级到子词级的演变，本研究分析了分词器如何在增强模型适应性的同时控制复杂度方面平衡标记和类型。根据认知科学中的 “最省力原则”，本文提出了一种新的 LLN 分词器 LiB 模型，它可以自主学习由子词、词和多词表达式组成的综合词汇，从而有效减少标记和类型的数量。比较评估显示，LiB 分词器优于现有的词级和 BPE 分词器，为分词器开发提供了创新方法，并提示未来的基于认知科学的分词器可能更为高效。

Mar, 2024

CharBERT：基于字符的预训练语言模型

本文提出的 CharBERT 模型是一个字符感知的预训练语言模型，通过新颖的异构交互模块将字符表示和子词表示进行融合，并提供了一种名为 NLM 的无监督字符表示学习的新的预训练任务，实验结果表明该模型能够同时提高 PLM 的性能和鲁棒性。

Nov, 2020