Breaking Character: MRLs 是否真的只需要使用子词?
该研究探讨了在使用基于子词分割的预训练语言模型(PLMs)中,字符级信息被编码的机制以及这些模型如何获得英语语言字符信息,结论表明这些模型可以很好地编码字符级信息并通过一系列实验证明这些结果是普遍适用的,并归纳了多种现象对于知识获取的作用,其中自然变化是其中之一
Jun, 2022
本文提出的 CharBERT 模型是一个字符感知的预训练语言模型,通过新颖的异构交互模块将字符表示和子词表示进行融合,并提供了一种名为 NLM 的无监督字符表示学习的新的预训练任务,实验结果表明该模型能够同时提高 PLM 的性能和鲁棒性。
Nov, 2020
本文提出了一种混合粒度的中文 BERT 模型(MigBERT),通过同时考虑字符和词来学习其特征表示,并在各种中文 NLP 任务上进行了广泛的实验以评估现有的 PLMs 以及所提出的 MigBERT,实验结果表明,MigBERT 在所有这些任务中都实现了新的最佳表现,MigBERT 还能与日语一起使用。
Mar, 2023
本研究以 BERT 为例,探究预训练语言模型的输入分割如何影响其复杂单词的语义表示,揭示了 PLMs 可以解释为串行双路模型,最有意义的输入标记应该允许在新词汇上进行最佳泛化。通过一系列的语义探测任务,我们证明了有派生输入分割的 DelBERT 能够显著地优于 WordPiece 分割的 BERT。减少子词切分的输入标记或许能够提高 PLMs 的泛化性能。
Jan, 2021
探讨分词和子词池化对两个大规模多语言模型在词汇计量、词性标注和命名实体识别等三个任务中的影响,并提出使用小型 LSTM 模型对子词进行池化处理的最佳方案。
Feb, 2021
通过对多种语言和实验条件下的状态 - of-the-art 字符 - 和子词级预训模型(ByT5 和 mT5)进行了广泛的比较,这项工作展示了前者不仅在翻译方面有效,并且在某些情况下比子词模型表现更好,特别是在训练数据有限的情况下。字符模型唯一的缺点似乎是效率低(至少慢 4 倍的训练和推理时间)。进一步的分析表明,字符模型能够隐含地在词或子词级别上进行翻译,从而抵消了字符级别操作的一个主要潜在弱点。
Feb, 2023
我们介绍了一种考虑词素的子词切分方法,利用字符的分解方法来解决字节对编码(BPE)在韩语中应用所面临的挑战,韩语的特点是丰富的语态和独特的书写系统。我们的方法在预训练语言模型(PLMs)中平衡了语言准确性和计算效率。我们的评估结果显示,该技术在整体上表现良好,显著提高了 NIKL-CoLA 句法任务的结果。这表明融合词素类型信息可以增强语言模型的句法和语义能力,表示采用更多的语言洞察力可以进一步提高性能,超越标准的形态分析。
Nov, 2023
为了利用中文语言系统中存在的字符下的语言信息,我们提出了一种基于 SubChar (即 SubCharacter) 的分词方法,该方法通过将每个汉字转换为一个基于其字形或发音的短序列,再基于编码后的文本进行子词分割来构建词汇表,实验结果表明 SubChar 的分词器相比现有分词器有两个主要优势:它们可以将输入标记为更短的序列,从而提高计算效率;以发音为基础的 SubChar 分词器可以将中文同音字编码为相同的音译序列并产生相同的标记化输出,从而具有抗同音错误的鲁棒性。
Jun, 2021
本研究探讨了两种技术,以在低资源设置中训练单语言 TLM,结果表明 MicroBERT 模型能够对下游任务评估进行显著改善。
Dec, 2022
本文提出使用子词语言模型实现查询建议的快速准确生成,并介绍了一种重迹迹算法和近似边缘化的重排序方法来解决子词语言模型引入的问题。通过使用新的评估指标均可恢复长度(MRL),我们的模型可在保持生成结果质量相似的情况下实现最多 2.5 倍的速度提升,并进行了全面细致的分析。
Sep, 2019