Breaking Character: MRLs 是否真的只需要使用子词？

Apr, 2022

Breaking Character: MRLs 是否真的只需要使用子词？

Breaking Character: Are Subwords Good Enough for MRLs After All?

Omri Keren, Tal Avinari, Reut Tsarfaty, Omer Levy

TL;DR对于语言中包含丰富词形的复杂语言，使用预训练字符序列的 BERT-style 掩码语言模型进行训练和推理而不是基于子单元的方式可能会得到更好的表现。但是，对于语义任务，基于子单元的 PLM 表现更好，这证实了基于子单元的分词作为许多语言的合理建模假设的潜力。

Abstract

Large pretrained language models (PLMs) typically tokenize the input string into contiguous subwords before any pretraining or inference. However, previous studies have claimed that this form of subword tokenization

pretrained language models morphologically-rich languages bert-style masked language model subword tokenization semantic tasks

发现论文，激发创造

令牌知道它们的字符以及如何知道它们？

该研究探讨了在使用基于子词分割的预训练语言模型（PLMs）中，字符级信息被编码的机制以及这些模型如何获得英语语言字符信息，结论表明这些模型可以很好地编码字符级信息并通过一系列实验证明这些结果是普遍适用的，并归纳了多种现象对于知识获取的作用，其中自然变化是其中之一

Jun, 2022

CharBERT：基于字符的预训练语言模型

本文提出的 CharBERT 模型是一个字符感知的预训练语言模型，通过新颖的异构交互模块将字符表示和子词表示进行融合，并提供了一种名为 NLM 的无监督字符表示学习的新的预训练任务，实验结果表明该模型能够同时提高 PLM 的性能和鲁棒性。

Nov, 2020

汉语预训练语言模型中的分词粒度：字符、词语还是两者兼备？

本文提出了一种混合粒度的中文 BERT 模型（MigBERT），通过同时考虑字符和词来学习其特征表示，并在各种中文 NLP 任务上进行了广泛的实验以评估现有的 PLMs 以及所提出的 MigBERT，实验结果表明，MigBERT 在所有这些任务中都实现了新的最佳表现，MigBERT 还能与日语一起使用。

Mar, 2023

派生形态学提高 BERT 对复杂词汇的解释力：超神秘并不超神

本研究以 BERT 为例，探究预训练语言模型的输入分割如何影响其复杂单词的语义表示，揭示了 PLMs 可以解释为串行双路模型，最有意义的输入标记应该允许在新词汇上进行最佳泛化。通过一系列的语义探测任务，我们证明了有派生输入分割的 DelBERT 能够显著地优于 WordPiece 分割的 BERT。减少子词切分的输入标记或许能够提高 PLMs 的泛化性能。

Jan, 2021

Subword 池化有所不同

探讨分词和子词池化对两个大规模多语言模型在词汇计量、词性标注和命名实体识别等三个任务中的影响，并提出使用小型 LSTM 模型对子词进行池化处理的最佳方案。

Feb, 2021

汉字级别翻译是否值得等待？字符级别与子词级别机器翻译模型的广泛比较

通过对多种语言和实验条件下的状态 - of-the-art 字符 - 和子词级预训模型（ByT5 和 mT5）进行了广泛的比较，这项工作展示了前者不仅在翻译方面有效，并且在某些情况下比子词模型表现更好，特别是在训练数据有限的情况下。字符模型唯一的缺点似乎是效率低（至少慢 4 倍的训练和推理时间）。进一步的分析表明，字符模型能够隐含地在词或子词级别上进行翻译，从而抵消了字符级别操作的一个主要潜在弱点。

Feb, 2023

通过语言学信息的次词单位分词和次字符分解来提升韩文 NLP 任务

我们介绍了一种考虑词素的子词切分方法，利用字符的分解方法来解决字节对编码（BPE）在韩语中应用所面临的挑战，韩语的特点是丰富的语态和独特的书写系统。我们的方法在预训练语言模型（PLMs）中平衡了语言准确性和计算效率。我们的评估结果显示，该技术在整体上表现良好，显著提高了 NIKL-CoLA 句法任务的结果。这表明融合词素类型信息可以增强语言模型的句法和语义能力，表示采用更多的语言洞察力可以进一步提高性能，超越标准的形态分析。

Nov, 2023

中文预训练语言模型的子字分词

为了利用中文语言系统中存在的字符下的语言信息，我们提出了一种基于 SubChar (即 SubCharacter) 的分词方法，该方法通过将每个汉字转换为一个基于其字形或发音的短序列，再基于编码后的文本进行子词分割来构建词汇表，实验结果表明 SubChar 的分词器相比现有分词器有两个主要优势：它们可以将输入标记为更短的序列，从而提高计算效率；以发音为基础的 SubChar 分词器可以将中文同音字编码为相同的音译序列并产生相同的标记化输出，从而具有抗同音错误的鲁棒性。

Jun, 2021

MicroBERT：低资源单语 BERT 的参数减少和多任务学习的有效训练

本研究探讨了两种技术，以在低资源设置中训练单语言 TLM，结果表明 MicroBERT 模型能够对下游任务评估进行显著改善。

Dec, 2022

查询自动完成的子词语言模型

本文提出使用子词语言模型实现查询建议的快速准确生成，并介绍了一种重迹迹算法和近似边缘化的重排序方法来解决子词语言模型引入的问题。通过使用新的评估指标均可恢复长度（MRL），我们的模型可在保持生成结果质量相似的情况下实现最多 2.5 倍的速度提升，并进行了全面细致的分析。

Sep, 2019